导语
上一篇文章中解释了最小二乘损失函数的由来,本篇将继续向下推导,即系数 W 的推导。
前置知识
里面用到了几个常见的与矩阵相关的求导公式
∂θTX∂θT=XT
∂θTX∂θ=X
关于上述公式的证明,这里不再赘述,可以严格参考向量求导的公式进行推理
推导
上篇文章中我们定义了损失函数为:
J(θ)=12∑i=1m(θT∗x(i)−y(i))2
J(θ)=12(Xθ−y⃗ )T(Xθ−y⃗ )
X是样本矩阵, y⃗ 是观测值列向量
我们将上述
h(θ)
拆开,得到:
J(θ)=12(θTXTXθ−θTXTy⃗ −y⃗ TXθ+y⃗ Ty⃗ )
由于 h(θ) 是凸函数,若要 h(θ) 取得极小值,则将其对 θ 求导,得到:
∇θJ(θ)=12(XTXθ+XTXθ−2XTy⃗ )=XTXθ−XTy⃗
令 ∇θJ(θ)=0 ,解得:
θ=(XTX)−1XTy⃗
至此, θ 的解析式求出。在实践中, XTX 矩阵的逆通常并不好求,甚至根本不能求逆,一种办法是使用岭回归,加入 λI 来使其可逆,或者使用梯度下降的方法迭代求参,关于梯度下降将在下一篇文章中进行阐述。