自然语言模型
一个句子的概率
P(s)=p(w1,w2,...wm)=
P
(
s
)
=
p
(
w
1
,
w
2
,
.
.
.
w
m
)
=
p(w1)p(w2|w1)...p(wm|w1,w2,...wm−1)
p
(
w
1
)
p
(
w
2
|
w
1
)
.
.
.
p
(
w
m
|
w
1
,
w
2
,
.
.
.
w
m
−
1
)
n-gram模型又一个假定,就是当前单词出现概率仅仅与前面n-1个单词相关。
p(S)=p(w1,w2,...wm)=∏mi=1p(wi−n+1,...wi−1)
p
(
S
)
=
p
(
w
1
,
w
2
,
.
.
.
w
m
)
=
∏
i
=
1
m
p
(
w
i
−
n
+
1
,
.
.
.
w
i
−
1
)
其中n表示当前单词依赖它前面的单词的个数。
p(wi−n+1,...wi−1)=C(wi−n+1,...wi−1,wi)C(wi−n+1,...wi−1)
p
(
w
i
−
n
+
1
,
.
.
.
w
i
−
1
)
=
C
(
w
i
−
n
+
1
,
.
.
.
w
i
−
1
,
w
i
)
C
(
w
i
−
n
+
1
,
.
.
.
w
i
−
1
)
其中C(X)表示单词序列在训练语料库中出现的次数。
评估指标
语言模型常用的评估指标为复杂度perplexity,它刻画的是通过某一语言模型估计的一句话出现的概率。比如当已经知道 (w1,w2,...wm) ( w 1 , w 2 , . . . w m ) 这句话出现在语料库中,那么通过语言模型计算出得出这个句子得概率越高越好,也就是perplexity得值越低越好:
复杂度表示的是平均分支系数,即预测下一个词时平均可选择数量。
另一种常用的perplexity表达形式
通俗易懂例子
考虑一个由0~9随机组成的长度为m的序列,由于这10个词出现的概率是随机的,所以每个词出现的概率都是1/10,因此在任意时刻,模型都有10个等概率的候选答案可以选择,于是perplexity的计算: