梯度
概念
- 导数derivate
- 偏微分partial derivate,指定导数方向
- 梯度gradient ,偏导数的向量
梯度反映
- 函数变化趋势
- 增长方向和增长速度(箭头方向和长度)
如何搜索极值解
- 不平滑,有多个局部极大极小值
- 鞍点
影响因素
- 初始点
- 步长learning rate,应设置小一点,影响速度和精度
- 逃出局部极小值escape minima,惯性
常见函数的梯度
求导
激活函数Activation Functions
sigmoid/logistic
tanh
ReLU
优先使用
更加有效率的梯度下降以及反向传播:避免了梯度爆炸和梯度消失问题
softmax
Loss及其梯度
均方差MSE
torch.autograde.grade(loss,[w1,w2...]) #求导
loss.backward() # 求导
grade.grade(loss,[w1,w2…]) #求导
loss.backward() # 求导