CS231n_损失函数的优化

huang_victor

已于 2023-04-13 14:27:24 修改

阅读量99

点赞数

分类专栏： cs231n 文章标签：机器学习深度学习 python

于 2023-03-10 17:59:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huang_victor/article/details/129444427

版权

cs231n 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1. 随机搜索

随机搜索，求取一定次数内的loss的最小值，以这一次的weight作为搜索的结果。

2. 梯度下降

求解局部的梯度，沿着下降最快的方向更新参数

数值求解方法：

针对每个weight，新增很小的值，求解结果，然后求解相对精度。weight增加，计算量太大，而且不精确。

公式计算：

理论推导，直接得到梯度的计算公式。loss太复杂，很难推导。

实际是通过反向梯度传递计算。

3. 训练的参数：

1. 参数初始化

2. 迭代次数

3. 学习率

4. batch大小

5. 数据采样顺序

梯度下降，是在小的batch上进行的，没法计算所有的数据，然后进行一次完整的反向传播。

4. 梯度更新方法

4.1 vanillar GD

观察到的现象：

不会直接朝最小的方向去更新；

开始的时候比较快，越到后面越慢；

存在的问题：

搜集所有样本的loss，然后进行一次梯度下降，非常慢。

4.2 SGD，随机梯度下降法

好处:

mini batch，计算loss，更新梯度。更可行

问题：

1. 不同方向梯度差的较多
2. local minum

3. 随机性，minibatch无法代表整体

4.3 SGD+Momentum

Momentum记录过去的梯度，抑制随机噪音，超越局部最优点。

Nesterov Momentum

AdaGrad

用于解决不同方向梯度差异较大，导致振荡。以历史的梯度作为一个权重。

RMSRrop

解决时间过久，历史梯度值太大的问题，加了一个decay权重。

Adam: SGD+ RMSProp+ Momentum

Adam: SGD+ bias + RMSProp + Momentum

在初始时刻，加上bias，避免梯度太大。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS231n_损失函数的优化

每个weight，新增很小的值，求解结果，然后求解相对精度。weight增加，计算量太大，而且不精确。梯度下降，是在小的batch上进行的，没法计算所有的数据，然后进行一次完整的反向传播。记录历史momentum，当前梯度求平均，用来抑制各个方向不均匀。Momentum记录过去的梯度，抑制随机噪音，超越局部最优点。3. 随机性，minibatch无法代表整体。求解梯度，沿着下降最快的方向更新参数。随机搜索，求取一定次数内的最小值。1. 不同方向梯度差的较多。4. batch大小。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。