COMS W4705: Natural Language Processing _chapter1

pdf网址:http://www.cs.columbia.edu/~mcollins/lm-spring2013.pdf


符号说明:

V是字典集(有穷);V+是字典集中单词组成的句子集(无穷,因为一个句子的长度不定)



句子是单词序列(如下),xn规定为特殊符号STOP(不算在字典集中)


我们应该如何定义概率函数p呢?如果仅用简单定义(个数/总数)将导致未出现句子的p为0。

一阶马尔科夫过程中的假设:

联合概率

1.1是多元联合概率公式;1.2用到了如下假设

这就是一阶 马尔科夫假设,假设某个词的出现概率只与他前一个单词有关

二阶马尔科夫假设,只与他前两个单词有关

三元语法模型是马尔科夫模型的直接应用。

用的是二阶马尔科夫假设。

这里的q就是对真实p的估计,是需要学习的参数。

对参数的约束如下

参数数量庞大:

原始想法,用出现次数估计概率:

缺点:参数相比于样本,数量非常大,很多count都将是0,低估了概率(系统误差);分母可能会是0

混淆度是评价语言模型的方法。

m是句子总数。此概率越大越好?







  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值