创作背景
最近要学学 反向传播 (BP
),写篇博客记录一下。
知识补充
误差反向传播,简称BP
(Back Propagation
)。
机器学习过程可分为 正向传播 和 反向传播。
- 正向传播:输入信息从输入层经隐层处理,传至输出层。每层神经元(节点)的状态只影响 下一层 神经元的状态。
- 反向传播:将误差信号 沿原来通路返回,修改各层权重值,使误差信号最小,得到 最佳(较佳)参数。
流程图
-
首先画一下流程图(用 mermaid 画出来效果看着不行,就用的 PPT 的形状一个一个画)
-
正向传播
-
反向传播
公式
- 正向传播
y ^ = w 1 x 2 + w 2 x + b r = y ^ − y l o s s = r 2 \hat{y}={w}_{1}{x}^{2}+{w}_{2}x+b \\ r = \hat{y} - y \\ loss = {r}^{2} y^=w1x2+w2x+br=y^−yloss=r2 - 反向传播,即
损失对各权重求偏导
∂ l o s s ∂ y ^ = ∂ l o s s ∂ r ∗ ∂ r ∂ y ^ = 2 r = 2 ( y ^ − y ) = 2 ( w 1 x 2 + w 2 x + b − y ) \frac{\partial loss}{\partial \hat{y}}=\frac{\partial loss}{\partial r}*\frac{\partial r}{\partial \hat{y}}=2r \\ =2(\hat{y}-y)=2({w}_{1}{x}^{2}+{w}_{2}x+b-y) ∂y^∂loss=∂r∂loss∗∂y^∂r=2r=2(y^−y)=2(w1x2+w2x+b−y)
∂ l o s s ∂ w 1 = ∂ l o s s ∂ y ^ ∗ ∂ y ^ ∂ w 1 = 2 r ∗ x 2 = 2 x 2 ( w 1 x 2 + w 2 x + b − y ) \frac{\partial loss}{\partial {w}_{1}}=\frac{\partial loss}{\partial \hat{y}}*\frac{\partial \hat{y}}{\partial {w}_{1}}=2r*{x}^{2}=2{x}^{2}({w}_{1}{x}^{2}+{w}_{2}x+b-y) ∂w1∂loss=∂y^∂loss∗∂w1∂y^=2r∗x2=2x2(w1x2+w2x+b−y)
∂ l o s s ∂ w 2 = ∂ l o s s ∂ y ^ ∗ ∂ y ^ ∂ w 2 = 2 r ∗ x = 2 x ( w 1 x 2 + w 2 x + b − y ) \frac{\partial loss}{\partial {w}_{2}}=\frac{\partial loss}{\partial \hat{y}}*\frac{\partial \hat{y}}{\partial {w}_{2}}=2r*{x}=2{x}({w}_{1}{x}^{2}+{w}_{2}x+b-y) ∂w2∂loss=∂y^∂loss∗∂w2∂y^=2r∗x=2x(w1x2+w2x+b−y)
∂ l o s s ∂ b = ∂ l o s s ∂ y ^ ∗ ∂ y ^ ∂ b = 2 r = 2 ( w 1 x 2 + w 2 x + b − y ) \frac{\partial loss}{\partial b}=\frac{\partial loss}{\partial \hat{y}}*\frac{\partial \hat{y}}{\partial b}=2r=2({w}_{1}{x}^{2}+{w}_{2}x+b-y) ∂b∂loss=∂y^∂loss∗∂b∂y^=2r=2(w1x2+w2x+b−y)
验证公式
计算模型 y ^ = w 1 x 2 + w 2 x + b \hat{y}={w}_{1}{x}^{2}+{w}_{2}x+b y^=w1x2+w2x+b 中 损失对各权重的梯度。
import torch
x = 1.0
y = 2.0
w = torch.Tensor([1.0, 2.0])
b = torch.Tensor([2.0])
w.requires_grad = True
b.requires_grad = True
def forward(x):
return w[0] * x ** 2 + w[1] * x + b
- 用公式计算
In[]: w1_ = 2 * x ** 2 * (forward(x).item() - y)
w2_ = 2 * x * (forward(x).item() - y)
b_ = 2 * (forward(x).item() - y)
w1_, w2_, b_
Out[]: (6.0, 6.0, 6.0)
- 用
torch
计算梯度
In[]: loss = (forward(x) - y) ** 2
loss.backward()
w.grad[0].item(), w.grad[1].item(), b.grad.item()
Out[]: (6.0, 6.0, 6.0)
- 结果正确
结尾
以上就是我要分享的内容,因为学识尚浅,会有不足,还请各位大佬指正。
有什么问题也可在评论区留言。