TODO 从数学上证明梯度下降更新会导致参数发散 更新 不理解 毕竟初始化的时候,已经是0~1之间了,感觉常规的参数初始化应该不会对 梯度发散有什么影响吧 引起梯度下降异常的因素: 1.样本输入特征的数据(样本的输入如果很大,求出来的梯度也会很大) 或则说样本数据极其不稳定,由于样本的不稳定导致计算的梯度值也不稳定 2.权重初始化的大小(目前只能理解在非凸函数上成立,但上面的意思,似乎在凸函数上也成立…)