文章目录
1 Basic Structures for Deep Learning Models
y是由
h
′
h'
h′运算得到的
强制与c相乘的矩阵是对角阵,这样可以减少参数量
与下一个LSTM单元相连
粗箭头代表矩阵,LSTM有4个,GRU有3个‘。GRU计算量少,并且不容易过拟合。
3 Computational Graph and Backpropagation
计算图的方式:
注:代价值 C 是一个常数
∂
C
∂
y
\frac{\partial C}{\partial y}
∂y∂C 是一个长条状,一行多列。
softmax 得到的不是 diagonal matrix,因为所有的 z 都会影响每一个
y
i
y_i
yi
注:将
W
m
n
2
W^2_{mn}
Wmn2 平铺,共有 m*n 个元素
左右两边结果一样
4 Language Model