要解决的问题:词性标注;
用监督学习的方法来解决词性标注问题;
如句子“The dog laugh”我们知道其对应的词性序列为“P N V ”其中P为介词 , N为名词, V为动词;那我们如何用机器学习的方法来解决这个问题呢? 我们可以用监督学习的方法来解决这个问题,本文大概描述描述这个过程。
对于输入的句子“ The dog laugh”中每个词都有可能是{P ,N ,V ,S} 四种词性中的一种,其中S 为结束标志。那么该输入语句对应的可能的词性序列就是 3^3 = 27种,第一个3 输入序列的长度,指数位置的3 是每个词可能的词性,在此例子中有3种可能(s 是结束标志,仅仅允许出现在最后一个位置)。
这27 种词性序列中,每一个序列都对应其出现的概率,那么出现概率最高的那个序列就是我们想要得到的序列。也就是求p(y1,y2,y3|x1,x2,x3)
使用的模型,隐马尔可夫模型;
由生成模型可知:p(y1,y2,…yn|x1,x2,…xn)的最大值就是p(x1...xn,y1,y2,...,yn)的最大值;