视频学习
为什么有些小样本数据集可以用很小的minibatch,好像有16,8的?
感觉就是平均的规则太“死板”,所以弄个加权。而普通加权又是另一种“死板”,所以用前面的所有“平均”代表当前数。之所以“指数”,是因为,按公式一层层套进去之后,其实就是一个和贝塔有关的指数。
同理,普通梯度下降,梯度更新也太“死板”,所以借用指数加权平均思想,来更新梯度。(视频有个球滚下碗的比喻,贝塔比喻摩擦,微分比喻加速度,所以“速度不会无止尽增加。不太理解)
视频学习
为什么有些小样本数据集可以用很小的minibatch,好像有16,8的?
感觉就是平均的规则太“死板”,所以弄个加权。而普通加权又是另一种“死板”,所以用前面的所有“平均”代表当前数。之所以“指数”,是因为,按公式一层层套进去之后,其实就是一个和贝塔有关的指数。
同理,普通梯度下降,梯度更新也太“死板”,所以借用指数加权平均思想,来更新梯度。(视频有个球滚下碗的比喻,贝塔比喻摩擦,微分比喻加速度,所以“速度不会无止尽增加。不太理解)