文章基本信息
文章主要内容及结构
第一章 简介
第二章 随机梯度下降法
小批量的大小一般不作为超参数,可以直接定死。(一般几十到几百不等)
对于总样本,每次计算完梯度后,将样本随机打乱再分成相同大小的批量,以防止某一次样本排序的特殊性。
第三章 随机梯度下降法的困难
第四章 随机梯度下降法的优化算法
为什么不用牛顿法
动量法
动量法的改进算法
Adagrad
Adadelta
Adam
如何选择算法
一句话:看情况
第五章 SGD并行与分布式架构
第六章 SGD的其他优化方法
权限&免责&交流声明