最小二乘法least square

最新推荐文章于 2024-07-28 08:40:13 发布

GarfieldEr007

最新推荐文章于 2024-07-28 08:40:13 发布

阅读量4.7k

点赞数 1

分类专栏：计算机视觉CV 文章标签：最小二乘法 least square

计算机视觉CV 专栏收录该内容

327 篇文章 28 订阅

订阅专栏

上研究生的时候接触的第一个Loss function就是least square。最近又研究了一下，做个总结吧。

定义看wiki就够了。公式如下

E (w) = 1 2 \sum n = 1 N {y - x W T} 2

其中 y 代表类标列向量， x 代表特征行向量， W 代表回归或者分类参数矩阵。通过令欧式距离最小化优化得到最优的 W 。

我遇到的第一个问题是，这个公式是怎么得到的，motivation是什么。我个人倾向于最大似然这个角度来解释。具体如下：

假设回归或分类模型公式如下：

y = W T x + ϵ

ϵ∼N(0,σ2) 代表加性高斯噪声，所以 y∼N(WTx,σ2) 。这时通过独立观测 x 得到一系列的观测值 X=(x1,y1)….,(xN,yN) ，则可写出对应的似然函数

p (y ∣ X, w, σ) = Π N n = 1 N (W T x, σ 2)

两边同取自然对数，则

l n (p (y ∣ X, w, σ)) = \sum i = 1 N l n (N (W T x, σ 2))

而 N(WTx,σ2)=12πσ2√exp(−(y−WTx2)2σ2)

故

l n (p (y ∣ X, w, σ)) = - 1 2 σ 2 \sum n = 1 N {y n - W T x n} 2 - 1 2 l n (2 π σ 2)

最大似然函数，求解W,

W * = a r g min W - 1 2 σ 2 \sum n = 1 N {y n - W T x n} 2 - 1 2 l n (2 π σ 2)

上式中第二项与 W 无关，可以省略，故

W * = a r g min W - 1 2 σ 2 \sum n = 1 N {y n - W T x n} 2

把上式中的 σ2 取掉，就是我们熟悉的最小二乘法啦。

求解时，对对数似然函数求偏导（注意矩阵求导的规则）

∇ln(p(y∣X,w,σ))=−∑Nn=1{yn−WTxn}xTn 令上式为0，则有

\sum n = 1 N y n x T n = W T \sum n = 1 N x n x T n

两边同取矩阵的逆，则有： ∑Nn=1xnyTn=∑Nn=1xnxTnW

如果用 Y 表示类标矩阵， X 表示特征矩阵，则有 XYT=XXTW W=(XXT)−1XYT

上面的公式称为normal equation。可以求得 W 的封闭解，但是只要做过实验的都知道，如果 X 的维数稍微一大，求逆的过程非常非常非常慢，且要消耗非常非常多的资源。所以 W 一般用梯度下降法求解。

最大似然法在一定程度上证明了最小二乘法的合理性，但是事实上在历史上最小二乘的出现早于前者，所以可以从其它的角度思考一下最小二乘的合理性。比如最小二乘的几何意义，这篇文章讲的挺好的，看了之后受益匪浅。

from: http://bucktoothsir.github.io/blog/2015/12/04/leastsquare/

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。