文章基本信息

文章主要内容及结构

第一章 简介


第二章 随机梯度下降法

小批量的大小一般不作为超参数,可以直接定死。(一般几十到几百不等)
对于总样本,每次计算完梯度后,将样本随机打乱再分成相同大小的批量,以防止某一次样本排序的特殊性。
第三章 随机梯度下降法的困难

第四章 随机梯度下降法的优化算法
为什么不用牛顿法

动量法


动量法的改进算法

Adagrad


Adadelta


Adam

如何选择算法
一句话:看情况

第五章 SGD并行与分布式架构

第六章 SGD的其他优化方法

权限&免责&交流声明