统计自然语言处理——n元语法(马尔可夫模型)小结

终于把书看到传说中重要的第六章了。。。

看完第六章开始后悔之前花那么多时间看前四章内容了。。看了也忘掉了。。什么困惑度啊什么的一堆概念还是要翻一翻。。之前总怕不仔细看后面的看不懂。。结果重要的第五章第六章反而看的比前面愉快了许多~主要还是概率的知识,几乎都是条件概率,条件概率公式、全概率公式和贝叶斯公式用的挺多,当然还有独立性。。下面不废话了。。具体说一下。。


【心得及问题】

1、N元语法的n体现了该词间的独立性,n越小独立性越强。则可根据不同语料的独立性特点选择不同的模型了。通常n=3。直观上讲,第i位置的词与前面多少个词的相关性并不一定,另外,“词”是一个笼统的概念(可以代表字、词短语等),它的选取也不确定,而一个模型直接赋予n一个确定的值,这本身是一种近似。所以说,模型不可能精确表达,根据这种局限性,一个好的模型的重要性就可想而知了。模型提出后也要检验,至少要满足已知定理,比如n元语法模型就加上了<BOS> 和<EOS>,以使i-1有意义并满足概率的归一性。
2、P75:刚开始没看懂计算P(Wi|Wi-1)的公式。是因为求和符号下面的Wi理解为施加给i了,思维定势,而Wi-1是不变的。其实就是条件概率公式P(A|B) = P(AB)/P(B)约掉了样本空间里元素的个数而已。
3、P77:之前看平滑方法的时候想比较一下,看看优缺点,但是一堆公式看起来很费劲。计算了一下,发现使用加法平滑算法时,概率的变大还是变小取决于(b-a|V|)的正负(a为原来概率的分子,b为原来概率的分母)。感觉词汇表的容量|V|通常应该很大,即使a比b小也有可能大多数情况该值为负,即概率变小,那么概率的归一性怎么保证&#
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值