机器学习篇——优化方法

最新推荐文章于 2022-01-11 15:25:23 发布

上海滩菜鸟

最新推荐文章于 2022-01-11 15:25:23 发布

阅读量629

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sbjqiaoqiao/article/details/79944913

版权

本文深入探讨了机器学习中的优化技术，包括梯度下降法、牛顿法、批梯度下降法、随机梯度下降法、动量梯度下降法（如Nesterov动量）、Adagrad、RMSP及Adam等。还提到了启发式优化算法如模拟退火、遗传算法，并介绍了有约束问题的解决方法——拉格朗日乘子法。

摘要由CSDN通过智能技术生成

机器学习问题推导最终大多转化为对目标函数或者损失函数的优化
最优化模型包括梯度下降法、牛顿法及其改进
梯度下降法和牛顿法：
1、泰勒展开
对损失函数L(wt+1)在wt处展开，可以得到L(wt+1)为L(wt)加上一阶导数乘以（wt+1减去wt）
2、最小化损失函数
若要减小损失函数，即令一阶导数乘以（wt+1减去wt）小于0
3、求得w的更新量
技巧：可以令（wt+1减去wt）=-学习率*一阶导数，其中学习率大于0
这样就推出了梯度下降公式，牛顿法则是二次展开，令一次项+二次项等于0，解得（wt+1减去wt）的值

x += - learning_rate * dx #learning_rate为学习率，dx为一阶导数

批梯度下降法和随机梯度下降法：
1、原理
同梯度下降法，只不过梯度下降法每次更新用了所有的数据，而这两种方法采用部分数据更新
2、公式
同梯度下降法，只是求导数时，用部分数据的期望代替梯度下降法中所有数据的期望
动量梯度下降法
1、原理
保留一定比例上一轮更新量，给以更新量一定的惯性
2、公式

v = mu * v

最低0.47元/天解锁文章

上海滩菜鸟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习篇——优化方法

机器学习问题推导最终大多转化为对目标函数或者损失函数的优化最优化模型包括梯度下降法、牛顿法及其改进梯度下降法和牛顿法： 1、泰勒展开对损失函数L(wt+1)在wt处展开，可以得到L(wt+1)为L(wt)加上一阶导数乘以（wt+1减去wt） 2、最小化损失函数若要减小损失函数，即令一阶导数乘以（wt+1减去wt）小于0 3、求得w的更新量技巧：可以令（wt+1减去wt）=...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。