Normal Equations 的由来与推导

最新推荐文章于 2023-12-11 19:35:13 发布

葫芦赛赛

最新推荐文章于 2023-12-11 19:35:13 发布

阅读量5.4k

点赞数 4

分类专栏：数据挖掘与机器学习文章标签：机器学习算法 Normal Equations 线性回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huruzun/article/details/41493063

版权

数据挖掘与机器学习专栏收录该内容

27 篇文章 1 订阅

订阅专栏

假设我们有m个样本。特征向量的维度为n。因此，可知样本为{(x⁽¹⁾,y⁽¹⁾), (x⁽²⁾,y⁽²⁾),... ..., (x^(m),y^(m))},其中对于每一个样本中的x⁽ⁱ⁾,都有x⁽ⁱ⁾={x₁⁽ⁱ⁾, x_n⁽ⁱ⁾,... ...,x_n⁽ⁱ⁾}。令 H(θ)=θ₀+ θ₁x₁ +θ₂x₂+... + θ_nx_n，则有

这个图片很好示意，但是维度标记错误了。X 是 m*(n+1) 维， θ 包含θ₀

_{为（n+1) * 1 维。}

若希望H(θ)=Y，则有

X · θ = Y

我们先来回忆一下两个概念：单位矩阵和矩阵的逆，看看它们有什么性质。

（1）单位矩阵E

AE=EA=A

（2）矩阵的逆A^-1

要求：A必须为方阵

性质：AA^-1=A^-1A=E

再来看看式子 X · θ = Y

若想求出θ，那么我们需要做一些转换：

step1：先把θ左边的矩阵变成一个方阵。通过乘以X^T可以实现，则有

X^TX · θ = X^TY

step2：把θ左边的部分变成一个单位矩阵，这样就可以让它消失于无形了……

(X^TX)^-1(X^TX) · θ = (X^TX)^-1X^TY

step3：由于(X^TX)^-1(X^TX) = E，因此式子变为

Eθ = (X^TX)^-1X^TY

E可以去掉，因此得到

θ = (X^TX)^-1X^TY

这就是我们所说的Normal Equation了。

上面描述的不是严格数学证明推导，参考NG的讲义：

_{通过cost function 来计算参数的值：}

_{损失函数迭代推导目标函数：}

_{目标函数推导过程：}

_{同样得到也是 θ = (X^TX)^-1X^TY}

Normal Equation VS Gradient Descent

Normal Equation 跟 Gradient Descent（梯度下降）一样，可以用来求权重向量θ。但它与Gradient Descent相比，既有优势也有劣势。

优势：

Normal Equation可以不在意x特征的scale。比如，有特征向量X={x₁, x₂}, 其中x₁的range为1~2000，而x₂的range为1~4，可以看到它们的范围相差了500倍。如果使用Gradient Descent方法的话，会导致椭圆变得很窄很长，而出现梯度下降困难，甚至无法下降梯度（因为导数乘上步长后可能会冲出椭圆的外面）。但是，如果用Normal Equation方法的话，就不用担心这个问题了。因为它是纯粹的矩阵算法。

劣势：

相比于Gradient Descent，Normal Equation需要大量的矩阵运算，特别是求矩阵的逆。在矩阵很大的情况下，会大大增加计算复杂性以及对计算机内存容量的要求。

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。