隐马学习二(从词性标注角度理解隐马尔可夫)

       将尝试从词性标注领域来理解隐马尔可夫模型。

基本概念

隐马尔可夫模型是一种统计模型,一种机器学习方法。

它主要研究这个类型问题:有一组我们可以观察到的序列符号,它背后还隐藏着了一组序列符号,我们如何求那组序列符号,及有多大的概率出现我们观察到的序列符号。

对应的是一个词诩标注的例子。一个句子经过分词后是一组词序列,这是我们可以观察到的,其实在词序列的背后还有一个词性序列。比如,一个词序列“李明热爱 工作 。“,隐含还有一个词性序列”名词 动词 名词 标点“。问题是:给一个词序列,怎么求词性序列呢?怎么求产生这个词序列的概率?。

         五元组

隐马尔可夫模型可以标记为五元组u=(S,K,A,B,pi):S代表状态集合;K为输出符号集合;pi为初始状态概率,A为状态转移概率;B为符号发射概率。

对应于词性标注问题中:

1,S为所有的词性集合,如果有标注好的训练语料,则从中统计出所有出现的词性;

2,K为所有的词集合,如果有训练语料,则从中统计出所有出现的词;

3,pi为句子中第一个词的词性概率分成,如果有训练语料,则统计出句子中第一个词(不区分什么词)的词性概率分布;

4,A为一个词性后边另一个词性的概率分布,比如动词后边是名词的概率、动词后边是介词的概率、名词后边是形容词的概率等;

5,B为一个词性中单词的概率分布,比如名词一共出了1000次,而这里边”中国“出现了10次,则名词中”中国"出现的概率是1/100。

经典问题

         隐马尔可夫三个经典问题:评估问题,解码问题,学习问题。

对应于词性分析中:

1,评估问题,如何从词性角度求一个词序列(句子)出现的概率;

2,解码问题,给定一个词序列,如何求其背后的词性序列;

3,学习问题,在隐马的元组都出现了各种概率,如果有标注好的训练语料,则可以统计计算出,但没有训练语料的情况,则如何计算出概率参数。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值