线性回归（Linear Regression）中的数学推导--到损失函数求导

本文链接：https://blog.csdn.net/Zijie123pea/article/details/112499786

博客围绕使用线性规划根据样本x预测y展开。先给出假设条件，将预测方程写成矩阵形式，接着探讨不同情况下损失函数J的求解，包括矩阵可逆与不可逆的情形，还分析了样本数与参数维度不同时的处理方法，最后对损失函数J进行求导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.假设条件

$x1,x2,…,xN,xi∈Rnx_1,x_2,\ldots,x_N,x_i\in R^n$ （x为样本， $R^n$ 表示样本的维度为n，此小n是一个方程中未知数的个数的n，而大N为样本的个数。）
$y1,y2,…,yN,yi∈R1y_1,y_2,\ldots,y_N,y_i \in R^1$ (y为实际值，因为实际值每个方程只有一个，所以 $R^1$ 表示只有1维。）

2.使用线性规划根据样本x预测y：

$y1=x11a1+x12a2+⋯+x1nany_1=x_{11}a_1+x_{12}a_2+\cdots+x_{1n}a_n$
$y2=x21a1+x22a2+⋯+x2nany_2=x_{21}a_1+x_{22}a_2+\cdots+x_{2n}a_n$
$⋮\vdots$
$yN=x21a1+x22a2+⋯+x2nany_N=x_{21}a_1+x_{22}a_2+\cdots+x_{2n}a_n$

3.写成矩阵形式：

$[x11x12…x1nx21x22…x2n⋮⋮⋱⋮xN1xN2…xNn][a1a2⋮an]=[y1y2⋮yN]\left[\begin{matrix} x_{11}&x_{12}&\ldots&x_{1n}\\ x_{21}&x_{22}&\ldots&x_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ x_{N1}&x_{N2}&\ldots&x_{Nn} \end{matrix}\right] \left[\begin{matrix} a_1\\a_2\\\vdots\\a_n \end{matrix}\right]= \left[\begin{matrix} y_1\\y_2\\\vdots\\y_N \end{matrix}\right]$

符号表示矩阵乘法：
$XN×nan×1=YN×1X_{N\times n}a_{n\times 1}=Y_{N\times 1}$
i.当 $N = n$ ，且 $XN×nX_{N\times n}$ 可逆时， $a=X^{-1}Y$

ii.当 $N≠nN\neq n$ 时（一般情况下N和n不相等），最小二乘法计算损失函数（loss）：
$min||Xa-Y||^2=minJ$
（这里为2-范数，即||Xa-Y||表示Xa-Y矩阵中每个元素的平方和再开平方根。）

4.求损失函数 $J$

矩阵的结构： $X_{Nn},a_{n1},y_{N1}$

i. 如果 $X_{Nn}$ 可逆，则 $N = n$ ，此时：
$XN×nan×1=YN×1X_{N\times n}a_{n\times 1}=Y_{N\times 1}$
$an×1=XN×n−1YN×1a_{n\times 1}=X_{N\times n}^{-1}Y_{N\times 1}$

ii.如果 $N≠nN\neq n$ 则 $X_{Nn}$ 不可逆，方程 $XN×nan×1=YN×1X_{N\times n}a_{n\times 1}=Y_{N\times 1}$ 不一定有解，所以就要让预测值Xa和实际值Y的差距尽量小，所有要让 $X a - Y$ 的范数尽可能小，即： $min||Xa-Y||^2=minJ$

对 $J$ 求导： $∂J∂a=XT(Xa−Y)\frac{\partial J}{\partial a}=X^T(Xa-Y)$

即： $X^TXa=X^Y$

此时要分情况讨论： $X^TX$ 是否可逆

1.N>n时（样本数大于参数维度），如N=5，n=3， $(XTX)3×3(X^TX)_{3\times3}$ 一般是可逆的
此时： $a=(X^TX)^{-1}X^TY$
$X^TX)^{-1}X^T$ 是伪逆。

2.N<n时（样本数小于参数维度，参数太多，样本数不足，模型过于复杂，会出现过拟合现象），如N=5，n=3，
要解决过拟合的问题，可以加入正则项：
$J=∣∣Xa−Y∣∣2+λ∣∣a∣∣2=J=||Xa-Y||^2+\lambda||a||^2=$
$λ∣∣a∣∣2\lambda||a||^2$ 为正则项
则：
$∂J∂a=XT(Xa−Y)+λa=0\frac{\partial J}{\partial a}=X^T(Xa-Y)+\lambda a=0$

$K = X a - Y$ 为N行1列的向量，
求列向量的模：
$∣∣K∣∣=K⃗⋅K⃗=XTX||K||=\sqrt {\vec {K}\cdot\vec {K}}=\sqrt {X^TX}$
$J=||K||^2=K^TK$
所以：
$J=J(a)=||K||^2=K^TK=(xa-y)^T(xa-y)=(a^Tx^T-y^T)(xa-y)=a^Tx^Txa-a^Tx^Ty-y^Txa+y^Ty$

（矩阵转置的性质： $A+B)^T=A^T+B^T,(AB)^T=B^TA^T$ ）
（J看成a的函数，因为要拟合的是储存有系数信息的a矩阵）

4.对损失函数 $J$ 求导

求导：
$J=J(a)=a^Tx^Txa-a^Tx^Ty-y^Txa+y^Ty$

第一项：
$∂aTxTxa∂a=(xTx+(xTx)T)a=2xTxa\frac{\partial a^Tx^Txa}{\partial a}=(x^Tx+(x^Tx)^T)a=2x^Txa$ ,
( $x^Tx为A，a为x$ ， $x^Tx$ 为对称矩阵)

(矩阵求导公式： $f(x)=xTAx,∂f(x)∂x=∂(xTAx)∂x=Ax+ATx=(A+AT)xf(x)=x^TAx,\frac{\partial f(x)}{\partial x}=\frac{\partial (x^TAx)}{\partial x}=Ax+A^Tx=(A+A^T)x$ ，当 $A$ 为对称矩阵时， $∂(xTAx)∂x=2Ax\frac{\partial (x^TAx)}{\partial x}=2Ax$ )

第二项：
$a^Tx^Ty=a^T(x^Ty)=(x^Ty)^Ta=y^Txa$ ，与第三项相同

第三项：
$∂yTxa∂a=∂[(xTy)Ta]∂a=xTy\frac{\partial y^Txa}{\partial a}=\frac{\partial [(x^Ty)^Ta]}{\partial a}=x^Ty$ ,

因为 $y_{N1}$ ， $y1NTy^T_{1N}$ ， $x_{Nn}$ ，则 $y^Tx)_{1n}$ ； $a_{n1}$ ，则 $y^Tx)a$ 为1x1的标量；
因为 $a_{n1}$ 是列向量，而 $y^Tx)_{1n}$ 不是列向量，不能用列向量求导公式：见例3
所以取其转置：
$x^Ty)_{n1}$ , $(xTy)1nT(x^Ty)^T_{1n}$ , $a_{n1}$ ,所以 $x^Ty)^Ta$ 为1x1的标量
$x^Ty)_{n1}$ 为列向量，可用列向量求导公式：
$∂yTxa∂a=∂[(xTy)Ta]∂a=xTy\frac{\partial y^Txa}{\partial a}=\frac{\partial [(x^Ty)^Ta]}{\partial a}=x^Ty$ ,