矩阵微分公式举例验证区别说明

矩阵微分公式,表示为:

公式1: \frac{\partial \mathbf{a}^T \mathbf{x}}{\partial \mathbf{x}} = \frac{\partial \mathbf{x}^T \mathbf{a}}{\partial \mathbf{x}} = \mathbf{a}  

公式2:\frac{\partial \mathbf{x}^T \mathbf{A} \mathbf{x}}{\partial \mathbf{x}} = (\mathbf{A} + \mathbf{A}^T) \mathbf{x}

一、举例验证公式1

假设我们有两个向量 \mathbf{a}\mathbf{x},其中 \mathbf{a} = \begin{pmatrix} a_1 \\ a_2 \\ a_3 \end{pmatrix} 和  \mathbf{x} = \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix}

1. 计算 \mathbf{a}^T \mathbf{x}
 \mathbf{a}^T \mathbf{x} = \begin{pmatrix} a_1 & a_2 & a_3 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = a_1 x_1 + a_2 x_2 + a_3 x_3

2. 计算\mathbf{x}^T \mathbf{a}
   \mathbf{x}^T \mathbf{a} = \begin{pmatrix} x_1 & x_2 & x_3 \end{pmatrix} \begin{pmatrix} a_1 \\ a_2 \\ a_3 \end{pmatrix} = a_1 x_1 + a_2 x_2 + a_3 x_3

可以看到,\mathbf{a}^T \mathbf{x} 和 \mathbf{x}^T \mathbf{a} 的结果是相同的,都是一个标量。

3. 计算偏导数:

  •    对于 \mathbf{a}^T \mathbf{x}

     \frac{\partial (\mathbf{a}^T \mathbf{x})}{\partial \mathbf{x}} = \frac{\partial (a_1 x_1 + a_2 x_2 + a_3 x_3)}{\partial \mathbf{x}} = \begin{pmatrix} a_1 \\ a_2 \\ a_3 \end{pmatrix} = \mathbf{a}

  •    对于\mathbf{x}^T \mathbf{a}

     \frac{\partial (\mathbf{x}^T \mathbf{a})}{\partial \mathbf{x}} = \frac{\partial (a_1 x_1 + a_2 x_2 + a_3 x_3)}{\partial \mathbf{x}} = \begin{pmatrix} a_1 \\ a_2 \\ a_3 \end{pmatrix} = \mathbf{a}

因此,无论是 \mathbf{a}^T \mathbf{x} 还是 \mathbf{x}^T \mathbf{a},它们对 \mathbf{x} 的偏导数都是向量 \mathbf{a}

二、举例验证公式2。

假设我们有一个向量 \mathbf{x} = \begin{pmatrix} x_1 \\ x_2 \end{pmatrix}和一个矩阵 \mathbf{A} = \begin{pmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix}

1. 计算 \mathbf{x}^T \mathbf{A} \mathbf{x}
   \mathbf{x}^T \mathbf{A} \mathbf{x} = \begin{pmatrix} x_1 & x_2 \end{pmatrix} \begin{pmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = a_{11} x_1^2 + a_{12} x_1 x_2 + a_{21} x_2 x_1 + a_{22} x_2^2

2. 计算偏导数:
   \frac{\partial \mathbf{x}^T \mathbf{A} \mathbf{x}}{\partial \mathbf{x}} = \frac{\partial (a_{11} x_1^2 + a_{12} x_1 x_2 + a_{21} x_2 x_1 + a_{22} x_2^2)}{\partial \mathbf{x}} = \begin{pmatrix} 2a_{11} x_1 + (a_{12} + a_{21}) x_2 \\ (a_{21} + a_{12}) x_1 + 2a_{22} x_2 \end{pmatrix}

3. 计算 (\mathbf{A} + \mathbf{A}^T) \mathbf{x}
   \mathbf{A}^T = \begin{pmatrix} a_{11} & a_{21} \\ a_{12} & a_{22} \end{pmatrix}
   (\mathbf{A} + \mathbf{A}^T) \mathbf{x} = \begin{pmatrix} a_{11} + a_{11} & a_{12} + a_{21} \\ a_{21} + a_{12} & a_{22} + a_{22} \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = \begin{pmatrix} 2a_{11} x_1 + (a_{12} + a_{21}) x_2 \\ (a_{21} + a_{12}) x_1 + 2a_{22} x_2 \end{pmatrix}

可以看到,\frac{\partial \mathbf{x}^T \mathbf{A} \mathbf{x}}{\partial \mathbf{x}}(\mathbf{A} + \mathbf{A}^T) \mathbf{x} 的结果是相同的,这验证了公式2的正确性。

三、两者的区别

公式1和公式2都是矩阵微分公式,但它们描述的是不同的情况。

1. 公式1:
   这个公式表示的是向量 \mathbf{a} 和 \mathbf{x} 的点积对 \mathbf{x} 的偏导数。它表明,无论是 \mathbf{a}^T \mathbf{x} 还是 \mathbf{x}^T \mathbf{a},它们对 \mathbf{x} 的偏导数都是向量 \mathbf{a} 。

2. 公式2:
   这个公式表示的是向量 \mathbf{x} 与矩阵 \mathbf{A} 乘积后再与 \mathbf{x} 的转置相乘的结果对 \mathbf{x} 的偏导数。它表明,\mathbf{x}^T \mathbf{A} \mathbf{x} 对 \mathbf{x} 的偏导数等于 (\mathbf{A} + \mathbf{A}^T) \mathbf{x} 。

3.关系:

  • 公式1和公式2都是矩阵微分的基本公式,用于计算不同类型的标量函数对向量的偏导数。
  • 公式1处理的是向量点积的情况,而公式2处理的是向量与矩阵乘积的情况。
  • 公式1的结果是一个向量,而公式2的结果也是一个向量,但它们的计算方法和结果形式不同。

这两个公式在矩阵微分中都是非常基础和常用的,它们在优化问题、机器学习等领域中都有广泛的应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值