梯度法

最新推荐文章于 2022-10-31 17:58:37 发布

双杯献酒

最新推荐文章于 2022-10-31 17:58:37 发布

阅读量1.8k

点赞数

分类专栏： AI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iicup/article/details/89360510

版权

1. 梯度法也叫最速下降法。

2. 批处理模式

全量梯度下降法（BGD, Batch gradient descent）。

在最小化损失函数的时候，首先随机取一个w0, 然后计算w0处的梯度，然后按梯度相反的方向修改w0.

反复迭代直到取得最小值。

其中每次修改的大小，称为学习步长。如果步长选择太小，则收敛速度会很慢，如果太大则可能会震荡。

w<t+1> = w<t> - η▽L(w<t>)

3. 在线模式

当数据量（样本数）很大的时候，批处理模式计算量太大。

在线模式一次只处理一个数据。

4. 随机梯度法（SGD, Stochastic Gradient Descent）

由于经验损失函数是n个样本对应的误差之和，所以当在线模式，不提前处理所有样本数据的情况下，

我们只能得到单个样本的损失（部分损失），随机梯度算法就直接使用部分损失函数，并根据其梯度来迭代更新w。

本算法需要的参数:

(1)部分损失函数

(2)部分损失函数的梯度函数

(3)最大迭代次数限制

(4)精度限制

(5)学习步长

5. 凸优化一阶算法，当维数很大的时候，收敛速度不超过正比于 1/√(t), t是迭代次数.

6. 小批量梯度下降法（MBGD, Mini-Batch Gradient Descent）<

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度法

1. 梯度法也叫最速下降法。2. 批处理模式全量梯度下降法（BGD, Batch gradient descent）。在最小化损失函数的时候，首先随机取一个w0, 然后计算w0处的梯度，然后按梯度相反的方向修改w0. 反复迭代直到取得最小值。其中每次修改的大小，称为学习步长。如果步长选择太小，则收敛速度会很慢，如果太大则可能会震荡。 w&l...
复制链接

扫一扫

专栏目录

博客等级

码龄22年

134
原创

16
点赞

50
收藏

102
粉丝

关注

私信

热门文章

分类专栏

C# 3篇
C++FAQ 54篇
Lua 10篇
Python 2篇
业界时事 1篇
游戏 15篇
知识库 30篇
算法 50篇
读书 10篇
个人
Unit
Unity 1篇
随机选择 1篇
AI 8篇

最新评论

控制台绘制心形
双杯献酒: Lua自带的print没有这个功能。要么你自用C语言自己写一个colorprint，要么找别人写好的库来用。
控制台绘制心形
茫421: 如果需要是红色的爱心颜色该怎么设置啊，大佬？
不开方快速约算对角线长度
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
枚举遍历组合
前端卡卡西呀: 写得很好，赞赞赞
摩尔斯电码字典序号
双杯献酒回复无敌皮皮樊: 全排列有C(n+m, n)种, m和n大一点，效率就不可忍受了。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。