矩阵求导中的分母布局与分子布局

最新推荐文章于 2024-02-24 23:40:47 发布

TLKids

最新推荐文章于 2024-02-24 23:40:47 发布

阅读量746

点赞数 1

文章标签：矩阵线性代数

本文链接：https://blog.csdn.net/TLKids/article/details/128595571

版权

最近在处理一些优化问题时，我才注意到，在不同的书籍、资料中函数 $f(x):\R^n \rightarrow\R^m$ 的导数 $\frac {\partial{f}} {\partial{x}}$ 形式并不一样。如下图，二者在雅各比矩阵的定义上显然不一样（很明显矩阵维度不同）。这一下子就把我弄糊涂了，之前还没从没注意到这个问题。

figure.1

还好有万能的wikipedia，在这里我找到了答案：
figure.2

figure.2

这两种表达不同的原因是其采用的表达形式不同，一种称为Numerator layout（分子布局），一种称为Denominator layout（分母布局）。
如果要方便地区分二者，这里我们记为 Numerator layout： $\frac {\partial{y}} {\partial{x^T}}$ ，Denominator layout： $\frac {\partial{y^T}} {\partial{x}}$ 。为了方便记忆，我们可以记为未转置的向量在那个位置，就是什么布局。
那么两种形式的区别和联系是什么呢？这里我们来看一个最简单的例子(注意！对于标量，转置和不转置没有区别。粗体为列向量)：
在这里插入图片描述
$\frac {\partial{\mathbf{y}}} {\partial{\mathbf{x}^T}}=\begin{bmatrix} \frac {\partial{y_1}} {\partial{\mathbf{x}^T}} \\ \vdots\\ \frac {\partial{y_m}} {\partial{\mathbf{x}^T}} \end{bmatrix} \quad \frac {\partial{\mathbf{y}^T}} {\partial{\mathbf{x}}}=\begin{bmatrix} \frac {\partial{y_1^T}} {\partial{\mathbf{x}}} & \dots &\frac {\partial{y_m^T}} {\partial{\mathbf{x}}} \end{bmatrix}$

通过这个例子，这两种表达的规律大家应该就很清晰了，并且也应该会觉得这两种写法导致结果的不同是很自然的。接下来，我们继续探究，我们先来回忆一下对标量函数导数的一个定义 $dy=\dot{f}(x)dx$ （这里不写为除法形式，是因为对于向量来说除法并不存在）。在进行高维推广时，我们自然而然的想要得到相同的形式。可是我们会发现，实际情况会略微变复杂一些。我们还是看一个简单的例子：
$\in \R^{m\times n}, y\in \R^m, x\in\R^n \\ y=f(x)=Ax \\ \text{according to figure.2 } \rightarrow \frac {\partial{y}} {\partial{x^T}}=A,\frac {\partial{y^T}} {\partial{x}}=A^T \\ dy=Adx=\frac {\partial{y}} {\partial{x^T}} dx, \quad dy=(dx^TA^T)^T=(\frac {\partial{y^T}} {\partial{x}})^Tdx$
所以我们可以直观地看到，分子布局的结果，我们可以直接使用；而对于分母布局的结果，我们需要转置后再使用。