卷积神经网络的参数书写
误差方向传播法师为了应对偏导数计算量巨大而提出。但是梯度下降法仍然是基础。
一、卷积神经网络所需要的参数
卷积层的过滤器示例:
卷积层的统一偏置:
b
F
1
b^{F1}_{}
bF1
输出层权重:
w
1
−
11
O
1
w_{1-11}^{O1}
w1−11O1
输出层偏置:
b
1
O
1
b_{1}^{O1}
b1O1
梯度下降法的基本公式:
(
Δ
w
11
F
1
,
⋯
,
Δ
w
1
−
11
O
1
,
⋯
,
Δ
b
1
2
,
⋯
)
=
−
η
(
∂
C
T
∂
w
11
F
1
,
⋯
,
∂
C
T
∂
w
1
−
11
O
1
,
⋯
,
∂
C
T
∂
b
F
1
,
⋯
,
∂
C
T
∂
b
1
O
,
⋯
)
\left( \varDelta w_{11}^{F1},\cdots ,\varDelta w_{1-11}^{O1},\cdots ,\varDelta b_{1}^{2}, \cdots \right) =\,\,-\eta \left( \frac{\partial C_T}{\partial w_{11}^{F1}},\cdots ,\frac{\partial C_T}{\partial w_{1-11}^{O1}},\cdots ,\frac{\partial C_T}{\partial b^{F1}},\cdots ,\frac{\partial C_T}{\partial b_{1}^{O}},\cdots \right)
(Δw11F1,⋯,Δw1−11O1,⋯,Δb12,⋯)=−η(∂w11F1∂CT,⋯,∂w1−11O1∂CT,⋯,∂bF1∂CT,⋯,∂b1O∂CT,⋯)
二、用神经单元误差 δ j l \delta _{j}^{l} δjl来表示各参数梯度分量
1、输出层的误差
∂
C
∂
w
k
−
i
j
O
n
=
δ
i
j
O
a
i
j
P
k
,
∂
C
∂
b
n
O
=
δ
n
O
\frac{\partial C}{\partial w_{k-ij}^{O_n}}=\delta _{ij}^{O}a_{ij}^{Pk}, \frac{\partial C}{\partial b_{n}^{O}}\,\,=\,\,\delta _{n}^{O}
∂wk−ijOn∂C=δijOaijPk,∂bnO∂C=δnO
其中n为输出层的神经单元标号,k为池化层的子层编号,i、j为过滤器的行、列编号。第一个:表示输出层第n个神经元的第k层池化层的i-j输出神经元的权重的神经单元误差。第二个:第n个神经元的偏置的神经单元误差
2、卷积层的误差
A、卷积层过滤器权重
∂
C
∂
w
i
j
F
k
=
δ
11
F
k
x
i
j
+
δ
12
F
k
x
i
j
+
1
+
⋯
+
δ
44
F
k
x
i
+
3
j
+
3
\frac{\partial C}{\partial w_{ij}^{F_k}}\,\,=\,\,\delta _{11}^{F_k}x_{ij}+\,\,\delta _{12}^{F_k}x_{ij+1}+\cdots +\,\,\delta _{44}^{F_k}x_{i+3j+3}
∂wijFk∂C=δ11Fkxij+δ12Fkxij+1+⋯+δ44Fkxi+3j+3
这是像素数为6x6、过滤器为3x3的关系式。其他情况下,需要根据实际情况进行相应的改变。表示第k层卷积层的第i-j个神经单元误差。
B、卷积层统一的偏置权重
∂
C
∂
b
F
k
=
δ
11
F
+
δ
12
F
k
+
⋯
+
δ
33
F
k
+
⋯
+
δ
44
F
k
\frac{\partial C}{\partial b_{}^{F_k}}=\,\,\delta _{11}^{F}+\delta _{12}^{F_k}+\cdots +\delta _{33}^{F_k}+\cdots +\delta _{44}^{F_k}
∂bFk∂C=δ11F+δ12Fk+⋯+δ33Fk+⋯+δ44Fk
每一个卷积层只有一个统一的偏置。表示第k层过滤层得到的卷积层的偏置。
三、如何计算输出层的 δ j l \delta _{j}^{l} δjl
输出层激活函数为a(z),n为该层的神经单元编号。
KaTeX parse error: Expected group after '^' at position 56: …O}-t_n\text{)}a^̲'\left( z_{n}^{…
表示输出层第n个神经元的神经单元误差。