机器学习笔记之(五)最小二乘法中参数解析解的求解过程

上篇文章讲到用极大似然估计去解释最小二乘法。这篇就讲一下最小二乘法中θ的解析解求的求解过程

求解过程

假设我们现在有M个N维的样本,我们可以将所有的样本组成一个样本矩阵X,那么X的每一行对应一个样本,共M行,每一列代表对应样本的一个特征,为了表达方便我们设有一个额外的一维常数项,全为1。

目标函数:

J(θ)=12i=1m(hθ(x(i))y(i))2=12(XθY)T(XθY)

我们继续对目标函数进行展开:

J(θ)=12(XθY)T(XθY)=12(θTXTYT)(XθY)=12(θTXTXθθTXTYYTXθ+YTY)

此时我们对J(θ)求导并令导数等于0:

J(θ)θ=12(2XTXθXTYXTY)=0

(这里对于向量求导还有不明白的地方请回到之前的一篇向量求导的文章,有说到常用的求导公式,这里就不在详述了。)
于是我们有:
XTXθXTYXTXθ=0=XTY

注意到XTX其实是一个方阵,如果这个方阵是可逆的话就可以直接得到θ的解析式如下:

θ=XTX)1XTY

通常为了防止过拟合,或者当XTX不可逆的时候,添加一个λ扰动(其中I为单位矩阵),于是θ解析式变成如下:

θ=XTX+λI)1XTY

展开阅读全文
©️2020 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值