cs231阅读笔记（2）—— 优化方法、正则化、迁移学习、软硬件

最新推荐文章于 2023-06-03 22:26:41 发布

yjyjjyjy1231

最新推荐文章于 2023-06-03 22:26:41 发布

阅读量411

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39055818/article/details/104507661

版权

本文介绍了优化方法中的SGD、SGD+Momentum、AdaGrad、RMSProp和Adam，探讨了它们的优缺点。接着讨论了过拟合的防治，包括模型集成、正则化、dropout和batch normalization。此外，还提到了迁移学习的重要性，以及硬件和软件的选择，如GPU、TensorFlow和PyTorch的角色。

摘要由CSDN通过智能技术生成

文章目录

优化方法

随机梯度下降SGD
随机梯度下降（SGD, stochastic gradient descent）：名字中已经体现了核心思想，随机选取一个店做梯度下降，而不是遍历所有样本后进行参数迭代。因为梯度下降法的代价函数计算需要遍历所有样本，而且是每次迭代都要遍历，直至达到局部最优解，在样本量庞大时就显得收敛速度比较慢了，计算量非常庞大。
随机梯度下降仅以当前样本点进行最小值求解，通常无法达到真正局部最优解，但可以比较接近。属于大样本兼顾计算成本的折中方案。

缺点

当梯度方向不指向最小值，会在更敏感的方向上震荡
局部最小值和鞍点及其附近（高维空间上，后者更容易发生）

SGD+momentum（带动量的SGD）
用“在速度方向上步进”替代“在原始梯度方向上步进”
可以解决上面的两个问题：相当于一定程度上保留了惯性
momentum初始化：初始化到0
在这里插入图片描述

AdaGrad & RMSProp
1. AdaGrad 一般不用

思想：累加每一步的梯度平方和，并在梯度下降时用梯度除以平方和
原因：在梯度陡峭的地方降低迭代步长，在梯度平滑的地方提升迭代步长
优点：避免问题一（即在每个维度上做出相同程度的优化），且步长越来越小（在凸函数的情况下符合期待）
缺点：非凸时困在局部最优点

2. RMSProp

思想：在平方和这一项中加入动量（decay_rate设置到0.9~0

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。