将尝试从词性标注领域来理解隐马尔可夫模型。
基本概念
隐马尔可夫模型是一种统计模型,一种机器学习方法。
它主要研究这个类型问题:有一组我们可以观察到的序列符号,它背后还隐藏着了一组序列符号,我们如何求那组序列符号,及有多大的概率出现我们观察到的序列符号。
对应的是一个词诩标注的例子。一个句子经过分词后是一组词序列,这是我们可以观察到的,其实在词序列的背后还有一个词性序列。比如,一个词序列“李明热爱 工作 。“,隐含还有一个词性序列”名词 动词 名词 标点“。问题是:给一个词序列,怎么求词性序列呢?怎么求产生这个词序列的概率?。
五元组
隐马尔可夫模型可以标记为五元组u=(S,K,A,B,pi):S代表状态集合;K为输出符号集合;pi为初始状态概率,A为状态转移概率;B为符号发射概率。
对应于词性标注问题中:
1,S为所有的词性集合,如果有标注好的训练语料,则从中统计出所有出现的词性;
2,K为所有的词集合,如果有训练语料,则从中统计出所有出现的词;
3,pi为句子中第一个词的词性概率分成,如果有训练语料,则统计出句子中第一个词(不区分什么词)的词性概率分布;
4,A为一个词性后边另一个词性的概率分布,比如动词后边是名词的概率、动词后边是介词的概率、名词后边是形容词的概率等;
5,B为一个词性中单词的概率分布,比如名词一共出了1000次,而这里边”中国“出现了10次,则名词中”中国"出现的概率是1/100。
经典问题
隐马尔可夫三个经典问题:评估问题,解码问题,学习问题。
对应于词性分析中:
1,评估问题,如何从词性角度求一个词序列(句子)出现的概率;
2,解码问题,给定一个词序列,如何求其背后的词性序列;
3,学习问题,在隐马的元组都出现了各种概率,如果有标注好的训练语料,则可以统计计算出,但没有训练语料的情况,则如何计算出概率参数。