分类
主要有导数(标量)、偏微分(特殊的导数,标量)、梯度(由偏微分组成的向量)三类
极小值求解
影响因素:
-
初始状态
-
学习率,影响收敛速度和精度
-
动量,逃离局部最小值
常见函数的梯度
若f(x)=g(x)/h(x)
则f'(x)=[g'(x)h(x)-h'(x)g(x)]/[h(x)]^2
激活函数及其梯度
** sigmoid/logistic**
Sigmoid函数的梯度求解
单层感知器损失函数的梯度
对应的梯度求解步骤如下:
Tanh函数
Tanh函数的梯度推导
多层感知器的损失函数梯度求解
多层感知器的损失函数求解步骤:
ReLU函数
损失函数的梯度
MSE均方损失函数
MSE是L2范数的平方
mse = torch.norm(y - pred, 2).pow(2)
梯度求解
SoftMax函数
梯度求解
当 i = j时:
当 i ≠ j 时