最小二乘法-多个角度解释

最小二乘法

假设采用二范数定义的平方误差来定义损失函数:
L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 2 L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2 L(w)=i=1N∣∣wTxiyi22
展开得到:
L ( w ) = ( w T x 1 − y 1 , ⋯   , w T x N − y N ) ⋅ ( w T x 1 − y 1 , ⋯   , w T x N − y N ) T = ( w T X T − Y T ) ⋅ ( X w − Y ) = w T X T X w − Y T X w − w T X T Y + Y T Y = w T X T X w − 2 w T X T Y + Y T Y \begin{align} L(w)&=(w^Tx_1-y_1,\cdots,w^Tx_N-y_N)\cdot (w^Tx_1-y_1,\cdots,w^Tx_N-y_N)^T\nonumber\\ &=(w^TX^T-Y^T)\cdot (Xw-Y)=w^TX^TXw-Y^TXw-w^TX^TY+Y^TY\nonumber\\ &=w^TX^TXw-2w^TX^TY+Y^TY \end{align} L(w)=(wTx1y1,,wTxNyN)(wTx1y1,,wTxNyN)T=(wTXTYT)(XwY)=wTXTXwYTXwwTXTY+YTY=wTXTXw2wTXTY+YTY
现在要最小化这个值的 $ \hat{w}$ :
w ^ = a r g m i n w L ( w ) ⟶ ∂ ∂ w L ( w ) = 0 ⟶ 2 X T X w ^ − 2 X T Y = 0 ⟶ w ^ = ( X T X ) − 1 X T Y = X + Y \begin{align} \hat{w}=\mathop{argmin}\limits_wL(w)&\longrightarrow\frac{\partial}{\partial w}L(w)=0\nonumber\\ &\longrightarrow2X^TX\hat{w}-2X^TY=0\nonumber\\ &\longrightarrow \hat{w}=(X^TX)^{-1}X^TY=X^+Y \end{align} w^=wargminL(w)wL(w)=02XTXw^2XTY=0w^=(XTX)1XTY=X+Y
这个式子中 ( X T X ) − 1 X T (X^TX)^{-1}X^T (XTX)1XT 又被称为伪逆。对于行满秩或者列满秩的 X X X,可以直接求解,但是对于非满秩的样本集合,需要使用奇异值分解(SVD)的方法,对 X X X 求奇异值分解,得到
X = U Σ V T X=U\Sigma V^T X=UΣVT
于是:
X + = V Σ − 1 U T X^+=V\Sigma^{-1}U^T X+=VΣ1UT
在几何上,最小二乘法相当于模型(这里就是直线)和试验值的距离的平方求和,假设我们的试验样本张成一个 p p p 维空间(满秩的情况): X = S p a n ( x 1 , ⋯   , x N ) X=Span(x_1,\cdots,x_N) X=Span(x1,,xN),而模型可以写成 f ( w ) = X β f(w)=X\beta f(w)=,也就是 x 1 , ⋯   , x N x_1,\cdots,x_N x1,,xN 的某种组合,而最小二乘法就是说希望 Y Y Y 和这个模型距离越小越好,于是它们的差应该与这个张成的空间垂直:
X T ⋅ ( Y − X β ) = 0 ⟶ β = ( X T X ) − 1 X T Y X^T\cdot(Y-X\beta)=0\longrightarrow\beta=(X^TX)^{-1}X^TY XT(Y)=0β=(XTX)1XTY

向量空间视角

总误差分散在N个样本点上,最小二乘法使得我们拟合出的曲线总误差最小。

第二种解释:将原来的函数改写成:
f ( w ) = w T x = x T β f(w) = w^Tx = x^T\beta f(w)=wTx=xTβ
这就是一个 p p p维空间,使得每个样本点尽可能地在这个空间中

image-20240110220029348

每个样本点拟合的值不一定在 p p p维空间中,这时候做一个法向量 Y − x β Y-x\beta Yxβ,所有的法向量都和 X X X矩阵垂直。

那么现在得出结论:
x T ( Y − x β ) = 0 x^T(Y-x\beta) = 0 xT(Yxβ)=0
即:
X T ( Y − x β ) = 0 X T Y = X T x β β = ( X T x ) − 1 X T Y \begin{align} X^T(Y-x\beta) &= 0 \\ X^TY &= X^Tx\beta \\ \beta &= (X^Tx)^{-1}X^TY \end{align} XT(Yxβ)XTYβ=0=XTxβ=(XTx)1XTY
image-20240110220302262

概率视角

噪声成高斯分布

最幸运的情况:所有数据都在一个直线上。

但是现实生活中的数据有噪声,这里假设噪声的概率服从一个高斯分布。

对于一维的情况,记 y = w T x + ϵ , ϵ ∼ N ( 0 , σ 2 ) y=w^Tx+\epsilon,\epsilon\sim\mathcal{N}(0,\sigma^2) y=wTx+ϵ,ϵN(0,σ2),那么 y ∼ N ( w T x , σ 2 ) y\sim\mathcal{N}(w^Tx,\sigma^2) yN(wTx,σ2)。代入极大似然估计(MLE)中:
L ( w ) = log ⁡ p ( Y ∣ X , w ) = log ⁡ ∏ i = 1 N p ( y i ∣ x i , w ) = ∑ i = 1 N log ⁡ ( 1 2 π σ e − ( y i − w T x i ) 2 2 σ 2 ) a r g m a x w L ( w ) = a r g m i n w ∑ i = 1 N ( y i − w T x i ) 2 \begin{align} L(w)=\log p(Y|X,w)&=\log\prod\limits_{i=1}^Np(y_i|x_i,w)\nonumber\\ &=\sum\limits_{i=1}^N\log(\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}})\\ \mathop{argmax}\limits_wL(w)&=\mathop{argmin}\limits_w\sum\limits_{i=1^N}(y_i-w^Tx_i)^2 \end{align} L(w)=logp(YX,w)wargmaxL(w)=logi=1Np(yixi,w)=i=1Nlog(2πσ 1e2σ2(yiwTxi)2)=wargmini=1N(yiwTxi)2
这个表达式和最小二乘估计得到的结果一样。

  • 20
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值