##序言
…
本系列对算法的讲解都会从两篇部分予以呈现:
a. 湿货部分要浅入浅出,形象生动,读得明白。
b. 干货部分要一文以蔽之,公式罗列,看得通透;
下面是(一)的 b 部分内容
#Unigram
Unigram模型认为序列中的每一项都是独立发生的,所以很自然,假设我们有N个序列,每个序列长度是
M
n
M
n
MnM n
MnM n p(v)=count(∗)count(v)
这是一个非常符合直觉的公式,一个term出现的概率就是它在训练数据里的频率,所以甚至有人会觉得这就是常识,但实际上背后是有数学推导支撑的。
#马尔可夫模型
按照上面类似的逻辑,一阶马尔可夫的最大似然估计就是
p
(
x
t
=
v
i
,
x
t
+
1
=
v
j
)
=
c
o
u
n
t
(
v
i
,
v
j
)
c
o
u
n
t
(
v
i
,
∗
)
p
(
x
t
=
v
i
,
x
p(xt=vi,xt+1=vj)=count(vi,vj)count(vi,∗)p(x t =v i ,x
p(xt=vi,xt+1=vj)=count(vi,vj)count(vi,∗)p(x t =v i ,x