Machine Learning：Linear Regression With Multiple Variables

最新推荐文章于 2023-08-10 09:20:26 发布

烟蓑雨笠

最新推荐文章于 2023-08-10 09:20:26 发布

阅读量1.3k

点赞数 1

分类专栏： Machine Learning 文章标签： Machine Leraning Linear Regression

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cstopcoder/article/details/40872949

版权

Machine Learning 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Machine Learning:Linear Regression With Multiple Variables

接着上次预测房子售价的例子，引出多变量的线性回归。

在这里我们用向量的表示方法使表达式更加简洁。

变量梯度下降跟单变量一样需同步更新所有的theta值。

进行feature scaling的原因是为了使gradient descent算法收敛速度加快。如下图所示，左图theta2与theta1的量级相差太大，这样导致Cost Function的等高图为一个细高的椭圆形状，可以看到其收敛轨迹，这样太慢！右图为进行过feature scaling的等高图，theta的取值范围相似，加快了收敛速度。

feature scaling的进行没有一个严格的准则，只需要使各个feature的取值范围相近即可。

这里介绍了一个feature scaling的方法，X(i)=(X(i)-average(X))/(max-min)。当然其他方法也可以只要使feature的范围合理即可。

此外，当我们对training set里的training data进行feature scaling后，在我们进行预测的时候，对于一个新来的example也需要进行同样方法的scaling，也就是说我们需要保存一些数据如average(X)，max，min等。

下面重复一下Learning rate的选择问题。

polynomial阶数的选择也是需要考虑的问题，因为这关系着under-fitting(欠拟合)和over-fitting(过拟合)的问题，我们会在后序文章中进行讨论。

下面我们介绍一种不需要进行很多次迭代就可以求出最优theta的方法:normal equation(正规方程)。

下面附上一段证明J(theta)的过程。

然后令J(theta)=0,便可以得到上述式子。

上面的内容比较了梯度下降和正规方程的优缺点。

如果X’*X不可逆（即|X’*X|=0），那么我们应该如何处理？

------------------------------------------------------------------------------------------------------------------

本内容摘自斯坦福大学Andrew Ng老师《机器学习》课件

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。