cs231阅读笔记(2)—— 优化方法、正则化、迁移学习、软硬件

本文介绍了优化方法中的SGD、SGD+Momentum、AdaGrad、RMSProp和Adam,探讨了它们的优缺点。接着讨论了过拟合的防治,包括模型集成、正则化、dropout和batch normalization。此外,还提到了迁移学习的重要性,以及硬件和软件的选择,如GPU、TensorFlow和PyTorch的角色。
摘要由CSDN通过智能技术生成


优化方法

随机梯度下降SGD
随机梯度下降(SGD, stochastic gradient descent):名字中已经体现了核心思想,随机选取一个店做梯度下降,而不是遍历所有样本后进行参数迭代。因为梯度下降法的代价函数计算需要遍历所有样本,而且是每次迭代都要遍历,直至达到局部最优解,在样本量庞大时就显得收敛速度比较慢了,计算量非常庞大。
随机梯度下降仅以当前样本点进行最小值求解,通常无法达到真正局部最优解,但可以比较接近。属于大样本兼顾计算成本的折中方案。

  • 缺点
  1. 当梯度方向不指向最小值,会在更敏感的方向上震荡
    在这里插入图片描述
  2. 局部最小值和鞍点及其附近(高维空间上,后者更容易发生)

SGD+momentum(带动量的SGD)
用“在速度方向上步进”替代“在原始梯度方向上步进”
可以解决上面的两个问题:相当于一定程度上保留了惯性
momentum初始化:初始化到0
在这里插入图片描述


AdaGrad & RMSProp
1. AdaGrad 一般不用

  • 思想:累加每一步的梯度平方和,并在梯度下降时用梯度除以平方和
  • 原因:在梯度陡峭的地方降低迭代步长,在梯度平滑的地方提升迭代步长
  • 优点:避免问题一(即在每个维度上做出相同程度的优化),且步长越来越小(在凸函数的情况下符合期待)
  • 缺点:非凸时困在局部最优点

2. RMSProp

  • 思想:在平方和这一项中加入动量(decay_rate设置到0.9~0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值