矩阵微分_鈭嘇f(a)-CSDN博客

本文链接：https://blog.csdn.net/myscnu/article/details/46317035

矩阵微分

定义

对于一个函数 $f:\mathbb{R}^{m \times n} \xrightarrow{} \mathbb{R}$ ，从 $m \times n$ 的矩阵映射到一个实数，那么 $f$ 关于 $A$ 的梯度可以定义为：

\nabla A f (A) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f \partial A 11 ⋮ \partial f \partial A m 1 \dots ⋱ \dots \partial f \partial A 13 ⋮ \partial f \partial A m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\nabla_Af(A)=\left[ \begin{array}{ccc} \frac{\partial{f}}{\partial{A_{11}}} & \cdots & \frac{\partial{f}}{\partial{A_{13}}} \\ \vdots & \ddots & \vdots \\ \frac{\partial{f}}{\partial{A_{m1}}} & \cdots & \frac{\partial{f}}{\partial{A_{mn}}} \\ \end{array} \right]$
所以梯度

∇Af(A) $\nabla_Af(A)$ 本身也是一个

m×n $m \times n$ 的矩阵。
例如，

A=[A11A21A12A22] $A=\left[ \begin{array}{cc} A_{11} & A_{12} \\ A_{21} & A_{22} \\ \end{array} \right]$
为一个

2×2 $2 \times 2$ 的矩阵，函数

f:R2×2−→R $f:\mathbb{R}^{2 \times 2} \xrightarrow{} \mathbb{R}$ 为

f (A) = 3 2 A 11 + 5 A 212 + A 21 A 22

$f(A)=\frac{3}{2}A_{11}+5A_{12}^2+A_{21}A_{22}$
那么，记

Aij $A_{ij}$ 为

A $A$ 的第

(i,j) $(i,j)$ 个元素，则

\nabla A f (A) = ⎡ ⎣ 3 2 A 22 10 A 12 A 21 ⎤ ⎦

$\nabla_Af(A)=\left[ \begin{array}{cc} \frac{3}{2} & 10A_{12} \\ A_{22} & A_{21} \\ \end{array} \right]$

矩阵的迹

对一个 $n \times n$ 的方阵， $A$ 的迹为其对角线上的元素之和：

t r A = \sum i = 1 m A i i

$trA=\sum_{i=1}^m A_{ii}$

性质

如果 $a$ 为一个实数，则 $tra=a$ 。
如果矩阵 $A$ 和 $B$ 的乘积为方阵，则 $trAB=trBA$ 。这可以推广到更一般的情况：
$t r A B C = t r C A B = t r B C A$ $trABC=trCAB=trBCA$
$t r A B C D = t r D A B C = t r C D A B = t r B C D A$ $trABCD=trDABC=trCDAB=trBCDA$
如果矩阵 $A$ 和 $B$ 同为方阵， $a$ 为实数，则：
$t r A = t r A T$ $trA=trA^T$
$t r (A + B) = t r A + t r B$ $tr(A+B)=trA+trB$
$t r a A = a t r A$ $traA=atrA$
通过简单推导出可以得到矩阵的迹的梯度：
$\nabla A t r A B = B T$ $\nabla_AtrAB=B^T$
$\nabla A f (A) = (\nabla A f (A)) T$ $\nabla_Af(A)=(\nabla_Af(A))^T$
$\nabla A t r A B A T C = C A B + C T A B T$ $\nabla_AtrABA^TC=CAB+C^TAB^T$
$\nabla A | A | = | A | (A - 1) T$ $\nabla_A|A|=|A|(A^{-1})^T$
上面最后一式中， $A$ 为非奇异方阵， $|A|$ 为 $A$ 的行列式的值。

例子

假设 $X=[x^{(1)}, x^{(2)}, \cdots, x^{(m)}]$ ，其中， $x^{(i)} \in \mathbb{R}^{n \times 1}$ 为一个训练样本。 $y=[y^{(1)}, y^{(2)}, \cdots, y^{(m)}]$ ，其中， $y^{(i)} \in \mathbb{R}$ 为训练样本的值。
那么损失函数可以记为：

J (θ) = 1 2 (θ X - y) (θ X - y) T

$J(\theta)=\frac{1}{2}(\theta X-y)(\theta X-y)^T$
现在求解损失函数的梯度，

\nabla θ J (θ) = \nabla θ [1 2 (θ X - y) (θ X - y) T] = 1 2 \nabla θ (θ X X T θ - θ X y T - y X T θ T + y y T) = 1 2 \nabla θ (θ X X T θ - θ X y T) - \nabla θ (θ X y T) = 1 2 (θ X X T + θ X X T) - y X T = θ X X T - y X T

$\begin{align} \nabla_\theta J(\theta) &= \nabla_\theta[\frac{1}{2}(\theta X-y)(\theta X-y)^T] \\ & = \frac{1}{2}\nabla_\theta(\theta XX^T\theta-\theta Xy^T-yX^T\theta^T+yy^T) \\ & = \frac{1}{2}\nabla_\theta(\theta XX^T\theta-\theta Xy^T) - \nabla_\theta(\theta Xy^T)\\ & = \frac{1}{2}(\theta XX^T+\theta XX^T) - yX^T \\ & = \theta XX^T - yX^T \end{align}$
可得，

θ=yXT(XXT)−1 $\theta=yX^T(XX^T)^{-1}$ 。

linearRegressionTrain.m

function [linearRegressionModel] = linearRegressionTrain(inputData, labels, options)
% linearRegressionTrain Train a linear Regression model  on the given
% data. Returns softmaxOptTheta, a vector containing the trained parameters
% for the model.
%
% inputData: an N by M matrix containing the input data, such that
%            inputData(:, c) is the cth input
% labels: M by 1 matrix containing the value labels for the
%            corresponding inputs. labels(c) is the value label for
%            the cth input
% options (optional): options
% options.maxIter: number of iterations to train for

if ~exist('options', 'var')
    options = struct;
end

if ~isfield(options, 'pinv')
    options.pinv = true;
end


[row, col] = size(inputData);
inputData = [ones(1, col); inputData];

if options.pinv
    theta = (labels * inputData') * pinv(inputData * inputData');
else
    theta = (labels * inputData') * inv(inputData * inputData');
end

 % Fold softmaxOptTheta into a nicer format
linearRegressionModel.optTheta = theta;
linearRegressionModel.numSample = col;
linearRegressionModel.numDim = row;                         
end

linearRegressionPredict.m

function [pred] = linearRegressionPredict(linearRegressionModel, data)

% linearRegressionModel - model trained using linearRegressionTrain
% data - the N x M input matrix, where each column data(:, i) corresponds to
%        a single test set
%
% This code produces the prediction matrix 
% pred, where pred(i) is the ith pred.


theta = linearRegressionModel.optTheta; % the parameters from theta

pred = theta * [ones(1, size(data, 2)); data];
%  pred= max(peed_temp);

% ---------------------------------------------------------------------

end