1.理论推导
参考博客如下,写得很好。
https://www.cnblogs.com/pinard/p/6422831.html
https://www.cnblogs.com/pinard/p/6494810.html
关键点就在于,反向传播的过程中,得到了top的梯度后,如何反向来传。个人的理解是首先得求出top一层的误差在bottom一层关于变量的梯度DX,然后再求出bottom层的dW和dbias,即:
根据第L层的DX求出第L-1层的DX,bp的时候一直回传的是某一层的DX。而bp过程中需要更新的是W和b的值,因此在每一层中,例如根据第L层的DX分别计算在第L-1层的dW和dbias,然后用此层的两个参数的梯度更新这两个参数。而如何求取这几个梯度,上述博文和下面的python代码中都有提到,这几个计算都可以写成是卷积的操作,从而方便实现。
2.python代码
import numpy as np
import torch
import torch.nn as nn
from torch.autograd import Variable
x=np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])
kernel1=np.array([[3,2,1],[1,4,2],[0,1,0]])
kernel2=np.array([[1,0,2],[0,2,1],[0,3,2]])
bias1=3
b