梯度下降法、牛顿法、拟牛顿法

最新推荐文章于 2021-11-05 22:17:55 发布

weixin_41609899

最新推荐文章于 2021-11-05 22:17:55 发布

阅读量355

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41609899/article/details/79436949

版权

梯度下降法

梯度下降法的优化思想是用当前负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为“最速下降法”。最速下降法越接近目标值，步长越小，前进越慢。

批量梯度下降法

得到的是全局最优解，但是每迭代一步，都要用到训练集所有的数据，如果训练集的数据很大，那么可想而知这种方法的迭代速度会相当的慢。于是出现了随机梯度下降法

随机梯度下降

通过每个样本来迭代更新一次，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条样本

最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体方向是向全局最优解的，最终结果往往是在全局最优解附近，适用于大规模训练样本情况

牛顿法

首先，我们对函数在xk点处进行二阶泰勒展开

这样我们就得到了一个不断更新

x 迭代求得最优解的方法。这个也很好理解，假设我们上面的第一张图的曲线表示的是函数

f(x) 一阶导数的曲线，那么其二阶导数就是一阶导数对应函数在某点的斜率，也就是那条切线的斜率，那么该公式就和上面求根的公式本质是一样的。

拟牛顿法

因为我们要选择一个矩阵来代替海森矩阵的逆，那么我们首先要研究一下海森矩阵需要具有什么样的特征才能保证牛顿法成功的应用。通过上面的描述我们知道

f' (x k + 1) = f' (x k) + H k (x k + 1 - x k) \Rightarrow

H - 1 K (f' (x k + 1) - f' (x k)) = x k + 1 - x k

上式我们称之为拟牛顿条件。
因此，对于我们所选择的替代矩阵

Gk ，需要满足两个条件：

拟牛顿条件，即Gk(f′(xk+1)−f′(xk))=xk+1−xk；
要保证Gk为正定矩阵，这是因为只有正定才能保证牛顿法的搜索方向是向下搜索的

假设yk=f′(xk+1)−f′(xk)，δk=xk+1−xk，因为每次迭代我们都需要更新替代矩阵Gk，下面介绍一种常用的迭代算法DFP(Davidon-Fletcher-Powell)

weixin_41609899

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降法、牛顿法、拟牛顿法

梯度下降法梯度下降法的优化思想是用当前负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为“最速下降法”。最速下降法越接近目标值，步长越小，前进越慢。批量梯度下降法得到的是全局最优解，但是每迭代一步，都要用到训练集所有的数据，如果训练集的数据很大，那么可想而知这种方法的迭代速度会相当的慢。于是出现了随机梯度下降法随机梯度下降通过每个样本来迭代更新一次，如果样本量很大的情况（例如...
复制链接

扫一扫

weixin_41609899 CSDN认证博客专家 CSDN认证企业博客

码龄7年

13: 原创

119万+: 周排名

45万+: 总排名

8万+: 访问

: 等级

533: 积分

6: 粉丝

8: 获赞

0: 评论

44: 收藏

私信

关注

热门文章

分类专栏

r 1篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。