传统语言模型:
基于前面序列的词预测接下来一个词。
P
(
w
1
,
.
.
.
,
w
m
)
=
∏
i
=
1
m
P
(
w
i
∣
w
1
,
.
.
.
,
w
i
−
1
)
P(w_1,...,w_m)=\prod^m_{i=1}P(w_i|w_1,...,w_{i-1})
P(w1,...,wm)=i=1∏mP(wi∣w1,...,wi−1)
计数模型:
给定第一个词的情况下,如果想获知第二个词的概率,先合计这两个词在此排序中同时出现的频率,然后除以第一个词在整个语料库中出现的频率。
在语料库庞大的情况下,计数的量非常大!
P
(
w
2
∣
w
1
)
=
c
o
u
n
t
(
w
1
,
w
2
)
c
o
u
n
t
(
w
1
)
P(w_2|w_1)=\frac{count(w_1,w_2)}{count(w_1)}
P(w2∣w1)=count(w1)count(w1,w2)
递归神经网络:
具体过程:
x
[
t
]
:
x_{[t]}:
x[t]:在第t个时间步长出现 字组向量。
递归神经网络的训练非常困难。
双向递归神经网络
分析详见之前论文笔记