1.Fully Connected Layer
标记方法
-
a
i
l
a_i^l
ail:第
l
l
l层的第
i
i
i个神经元,将同一层的
a
i
l
a_i^l
ail串在一起形成的向量表示为
a
l
a^l
al
-
W
i
j
l
W_{ij}^l
Wijl:即l-1层和l层相连的权重,其中i表示l层连接的神经元,其中j表示l-1层连接的神经元
-
z
i
l
z_i^l
zil:第
l
l
l层的第
i
i
i个神经元的激活函数的输入
2.Recurrent Structure(同样结构反复使用)
LSTM结构
GRU(Gate Recurrent Unit):与LSTM相比,该结构用的三个矩阵(LSTM用四个),参数少些 不容易过拟合
(1)将
h
t
−
1
h^{t-1}
ht−1、
x
t
x^t
xt并在一起,乘矩阵(蓝色粗箭头表示)再通过激活函数得到
r
(
r
e
s
e
t
−
g
a
t
e
)
r(reset-gate)
r(reset−gate)、
z
(
u
p
s
e
t
−
g
a
t
e
)
z(upset-gate)
z(upset−gate)
(2)将
h
t
−
1
h^{t-1}
ht−1和
r
r
r进行元素相乘得到新矩阵,将该矩阵和
x
t
x^t
xt并在一起,乘矩阵(黄色粗箭头表示)再通过激活函数得到
h
′
h'
h′
(3)将
h
t
−
1
h^{t-1}
ht−1和
z
z
z进行元素相乘,将
h
′
h'
h′和
1
−
z
1-z
1−z进行元素相乘,再相加得到
h
t
h^t
ht
(4)
h
t
h^t
ht乘另一个矩阵得到
y
t
y^t
yt
Stack RNN
注:push即将该信息放入现在输入的最前方;pop即将最上方的值丢掉;nothing即什么都没有做