mini batch
1.样本太多时5万,尽管是向量化也解决不了问题,这时选择mini-batch 梯度下降
2.每个epoch会梯度下降m/mini-batch size 次
3.cost曲线会有更多的噪音走势向下
4.当mini-batch size=1时会变成新的算法,随机梯度下降,放弃了向量化对训练速度的提升
当mini-batch size=m时会变成新的算法,batch梯度下降,不适合数据量大的情况
mini-batch size ,最好为2^n
5.随机梯度下降只会到cost最小值附近,不会收敛
动量法:
1.指数加权平均
右侧是vt约等于几天的温度平均
指数衰减函数*温度
偏差修正
v0=0 v1=βv0+(1-β)seita1,可知v1会远远小于seita1
vt=vt/(1-β^t),因为β小于1,所以随着t的增大,函数值将趋向于vt,前期会使v1更靠近seita
4.
nesterov算法 考虑未来
adagrad 自适应学习率
RMSprop算法
adam算法
损失函数来调整参数,损失函数的最低点处差异最小。
梯度下降就是将初始化好的参数一点点的调整,来使得损失函数值一点点地变小达到最小值局部最小值。
学习率衰减
1.衰减公式
2. 指数衰减与其他衰减公式
最低点通常是鞍点
天哪 听不懂怎么办