参数初始化方法
全0初始化---不采用
每个权重被初始化成了相同的值,那么权重失去了不对称性
随机初始化
高斯随机化、均匀随机化
稀疏初始化
使用较少,全部初始化为0再随机挑选一些参数附上随机值
Xavier
适用于激活函数是sigmod或 tanh等S型曲线函数
Kaiming
激活函数是ReLU的专用初始值
参数优化器
SGD
随机梯度下降法,梯度的方向并没有指向最小值的方向时,寻找路线是‘之’字型效率低
Momentum
动量,参照小球在碗中滚动的物理规则进行移动
AdaGrad
学习率衰减方法,为参数的每个元素适当地调整学习率
Adam
结合Momentum和AdaGrad,实际使用中Adam可作为默认优化器,往往能达到比较好的效果