lec6 训练神经网络2

最新推荐文章于 2021-02-27 19:42:20 发布

fffupeng

最新推荐文章于 2021-02-27 19:42:20 发布

阅读量324

点赞数 1

分类专栏： cs231课程学习 deep learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fffupeng/article/details/73440929

版权

deep learning 同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

cs231课程学习

6 篇文章 0 订阅

订阅专栏

参数的更新：

详见 http://blog.csdn.net/fffupeng/article/details/72771325

SGD：（沿着梯度负方向更新参数）

在上图中x方向的长度远大于其他方向，损失函数在水平方向上比较浅，在垂直方向上比较深。如上图，很明显下降的速度比较慢。

Momentum update：

动量更新不仅考虑了当前的动量-learning_rate*dx，还考虑了之前的动量v，注意到这是两个矢量相加。换句话来理解：如果当前的速度和之前更新的速度方向相同，则变化较大，反之变化较小。如下图所示：

Nesterov Momentum update:

这和之前Momentum更新的区别在于，将dx替换为

x是当前的位置，dx也就是当前位置的梯度，现在通过上一次的位置和上一次的动量估计出本次的位置，也就是说计算的是估计目的位置的梯度。

AdaGrad update：

相比于SGD只是在分母上多除了一个式子，这可以看作是对learing_rate的缩放，也就是说现在的学习率是动态的。如果dx梯度越大，学习率越小。Adagrad的一大优势时可以避免手动调节学习率，比如设置初始的缺省学习率为0.01，然后就不管它，另其在学习的过程中自己变化。当然它也有缺点，就是它计算时要在分母上计算梯度平方的和，由于所有的参数平法必为正数，这样就造成在训练的过程中，分母累积的和会越来越大。

RMSProp update:

Adam update:

训练多个模型，对测试结果取平均，提升2%效果。但是训练多个模型非常消耗时间。就有了接下来的dropout

Dropout：

在训练的过程中，神经元以一定概率失活，这样就可以看作一个全新的模型。在测试时候所有的神经元都参与计算，计算的结果乘以相应的dropout概率。

dropout可以防止过拟合并减少计算参数的数量。一般来讲网络前面几层dropout数量比后面的几层少。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lec6 训练神经网络2

参数的更新：详见 http://blog.csdn.net/fffupeng/article/details/72771325 SGD：（沿着梯度负方向更新参数）在上图中x方向的长度远大于其他方向，损失函数在水平方向上比较浅，在垂直方向上比较深。如上图，很明显下降的速度比较慢。 Momentum update：动量更新不仅考虑了当前的动量-learning_rate
复制链接

扫一扫

专栏目录

fffupeng CSDN认证博客专家 CSDN认证企业博客

码龄12年

90: 原创

14万+: 周排名

207万+: 总排名

13万+: 访问

: 等级

2257: 积分

21: 粉丝

38: 获赞

15: 评论

109: 收藏

私信

关注

热门文章

分类专栏

c++ 16篇
数据结构 4篇
deep learning论文笔记 16篇
linux 4篇
Leetcode 19篇
boost 3篇
plate recongnize
caffe 14篇
python 10篇
yolo 4篇
CUDA 1篇
cs231课程学习 6篇
deep learning 15篇
图像处理 4篇
电影
tensorflow 4篇
NS_ML 1篇

最新评论

yolo测试代码梳理
Tisfy: 看完之后，我激动的心情久久不能平复
caffe 添加Python层
马到成功.: 博主你好，我最近也在用caffe跑东西，但是遇到了点问题，想要请教下您，就是在执行训练文件的时候，代码运行到迭代部分就停在那不动了这是怎么回事呢？期待您的回复，谢谢。 [code=python] I0922 10:40:59.692507 9525 upgrade_proto.cpp:72] Successfully upgraded file specified using deprecated input fields. W0922 10:40:59.692509 9525 upgrade_proto.cpp:74] Note that future Caffe releases will only support input layers and not input fields. I0922 10:40:59.775990 9525 net.cpp:746] Ignoring source layer fc8 I0922 10:40:59.776000 9525 net.cpp:746] Ignoring source layer prob I0922 10:40:59.779959 9525 solver.cpp:57] Solver scaffolding done. I0922 10:40:59.780611 9525 caffe.cpp:239] Starting Optimization I0922 10:40:59.780618 9525 solver.cpp:289] Solving RankIQA_siamese_train_test I0922 10:40:59.780622 9525 solver.cpp:290] Learning Rate Policy: step I0922 10:40:59.782059 9525 solver.cpp:347] Iteration 0, Testing net (#0) [/code]
caffe 添加Python层
雨后天空sunny: 请问Python下添加layer的GPU 实现有模板吗？
导数，偏导，方向倒数，梯度
xuxiaoyi67: 666666666666666666666
yolo 源码分析
小小小吃货: 博主您好。请问在yolo.c的文件里面怎么修改？可以说一下您修改的过程吗？谢谢了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。