week3课程内容
Part of speech tagging词类标注:
1.POS(Part of speech)词类:
词类标注的工作,就是给句子中的每个单词标注上它在这句话中正确的词性。这项工作的难点在于,一个单词往往具有多个词性。
2.两种tagging方法:
(1)基于规则的标注方法:rule-based tagging
(2)HMM(Hidden Markov Model 隐马尔科夫模型)
3.正式介绍 HMMs:
(1)任务介绍:对于一个单词序列
w
1
,
w
2
.
.
.
w
n
w_1,w_2...w_n
w1,w2...wn,我们希望找到一组词性序列
t
1
,
t
2
.
.
.
t
n
t_1,t_2...t_n
t1,t2...tn,使得词性序列与单词序列匹配得最好,即找到:
t
1
n
=
arg max
t
1
,
t
2
.
.
.
t
n
P
(
t
1
,
t
2
.
.
.
t
n
∣
w
1
,
w
2
.
.
.
w
n
)
t^n_1=\argmax_{t_1,t_2...t_n}P(t_1,t_2...t_n|w_1,w_2...w_n)
t1n=t1,t2...tnargmaxP(t1,t2...tn∣w1,w2...wn)
利用bayes公式
P
(
x
∣
y
)
=
P
(
y
∣
x
)
P
(
x
)
P
(
y
)
P(x|y)=\frac{P(y|x)P(x)}{P(y)}
P(x∣y)=P(y)P(y∣x)P(x),上式变为:
t
1
n
=
arg max
t
1
,
t
2
.
.
.
t
n
P
(
w
1
,
w
2
.
.
.
w
n
∣
t
1
,
t
2
.
.
.
t
n
)
P
(
t
1
,
t
2
.
.
.
t
n
)
P
(
w
1
,
w
2
.
.
.
w
n
)
≈
arg max
t
1
,
t
2
.
.
.
t
n
P
(
w
1
,
w
2
.
.
.
w
n
∣
t
1
,
t
2
.
.
.
t
n
)
P
(
t
1
,
t
2
.
.
.
t
n
)
t^n_1=\argmax_{t_1,t_2...t_n}\frac{P(w_1,w_2...w_n|t_1,t_2...t_n)P(t_1,t_2...t_n)}{P(w_1,w_2...w_n)}\\ \approx \argmax_{t_1,t_2...t_n}P(w_1,w_2...w_n|t_1,t_2...t_n)P(t_1,t_2...t_n)
t1n=t1,t2...tnargmaxP(w1,w2...wn)P(w1,w2...wn∣t1,t2...tn)P(t1,t2...tn)≈t1,t2...tnargmaxP(w1,w2...wn∣t1,t2...tn)P(t1,t2...tn)
这里,
P
(
w
1
,
w
2
.
.
.
w
n
∣
t
1
,
t
2
.
.
.
t
n
)
P(w_1,w_2...w_n|t_1,t_2...t_n)
P(w1,w2...wn∣t1,t2...tn)叫做似然度(likelihood),
P
(
t
1
,
t
2
.
.
.
t
n
)
P(t_1,t_2...t_n)
P(t1,t2...tn)叫做先验概率(prior)
likelihood和prior均可以通过训练集统计得到。
(2)Markov chain与HMM:
马尔科夫链是一阶可观测马尔科夫模型,我们知道状态集与各状态之间的转移概率,我们观测到的就是状态本身。
而隐式马尔科夫模型,我们无法观测到状态本身,只能观测到与状态有关系的东西。为便于理解,有下面的例子:
简言之,就是我们如何通过多年前一个孩子吃冰淇淋数目的记录,推测当时的天气变化。这个例子中,我们无法直接观察天气,但可以间接推测,这就是“隐”的含义。
HMM定义如下:
简单表示,就是:
H
M
M
=
Π
,
A
,
B
+
Q
+
O
HMM=\Pi ,A,B+Q+O
HMM=Π,A,B+Q+O,注:B是状态确定时,观测为O的概率。另外,记
Λ
=
{
Π
,
A
,
B
}
\Lambda=\{\Pi,A,B \}
Λ={Π,A,B}
(3)HMMs训练存在的问题:参考网站