特征缩放

最新推荐文章于 2024-01-03 11:08:42 发布

疏雨过风林破

最新推荐文章于 2024-01-03 11:08:42 发布

阅读量460

点赞数

分类专栏：数据挖掘机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ningchunmei1/article/details/79570472

版权

数据挖掘同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

特征缩放

如果有多个特征，为了让这多个特征都在一个相近的范围内，这样梯度下降法就能更快的收敛。

均值归一化

$\frac{x-\mu}{s}$

其中 $\mu$ 为均值，s为特征值的范围，即max-min。

学习率 $\alpha$

梯度下降算法迭代过程中的代价函数J（ $\theta$ ）的值，如果梯度下降算法正常工作，那么每迭代一部后代价函数下降，当到达多次迭代后，代价函数不继续下降了，梯度下降算法收敛。
如果代价函数随迭代次数程上升趋势，说明梯度下降算法没好好工作，我们应该用更小的 $\alpha$ 值。

标准方程法

标准方程法是求解 $\theta$ 的另一种不迭代的方法，
这里写图片描述
矩阵表示求 $\theta$ :
$\theta=(X^TX)^{-1}X^Ty$

何时使用梯度下降法，何时使用标准方程法

1、梯度下降法需要选择学习速率 $\alpha$ ，需要多次迭代；
2、标准方程法不需要选择学习速率 $\alpha$ ，不需要多次迭代，也不需要画出J（ $\theta$ ）的曲线来检查收敛性或者采取所有的额外步骤；
3、梯度下降法在很多特征变量的情况下也能运行很好；
4、标准方程法需要计算 $(X^TX)^{-1}$ ，但是 $X^TX$ 是一个n*n的矩阵，实现逆矩阵的计算量大致是矩阵维度的三次方，当n很大时，计算量很大，标准方程法会很慢。
所以当n很大的时候使用梯度下降法，例如n上万。

疏雨过风林破

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征缩放

特征缩放如果有多个特征，为了让这多个特征都在一个相近的范围内，这样梯度下降法就能更快的收敛。均值归一化x−μsx−μs\frac{x-\mu}{s}其中μμ\mu为均值，s为特征值的范围，即max-min。学习率 αα\alpha梯度下降算法迭代过程中的代价函数J（θθ\theta）的值，如果梯度下降算法正常工作，那么每迭代一部后代价函数下降，当到达多次迭代后，代价...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。