如上图所示,
x
x
x表示输入,
F
(
x
)
F(x)
F(x) 表示残差块在第二层激活函数之前的输出,即
F
(
x
)
=
W
2
σ
(
W
1
x
)
F(x)=W_2\sigma(W_1x)
F(x)=W2σ(W1x),其中
W
1
W_1
W1 和
W
2
W_2
W2 表示第一层和第二层的权重,
σ
\sigma
σ 表示 ReLU 激活函数(这里省略了 bias)。最后残差块的输出是
σ
(
F
(
x
)
+
x
)
\sigma(F(x)+x)
σ(F(x)+x)。