与N-gram对比
RNNs可以将整句话的每个单词都考虑进来。
RNNs
分类
one-to-one, one-to-many, many-to-many, many-to-one
数学原理
Hidden state
h
<
t
−
1
>
h^{<t-1>}
h<t−1>表示前面的单词,
x
<
t
>
x^{<t>}
x<t>表示当前单词,两者相加得到当前的
h
<
t
>
h^{<t>}
h<t>就是每次的输入,
y
^
\hat{y}
y^是每次的输出
(图中[]表示concatenate,相加)
Implementation
损失函数:交叉熵
backpropogation
GRU
bidirectional RNNs