pdf网址:http://www.cs.columbia.edu/~mcollins/lm-spring2013.pdf
符号说明:
V是字典集(有穷);V+是字典集中单词组成的句子集(无穷,因为一个句子的长度不定)
句子是单词序列(如下),xn规定为特殊符号STOP(不算在字典集中)
我们应该如何定义概率函数p呢?如果仅用简单定义(个数/总数)将导致未出现句子的p为0。
一阶马尔科夫过程中的假设:
联合概率
1.1是多元联合概率公式;1.2用到了如下假设
这就是一阶 马尔科夫假设,假设某个词的出现概率只与他前一个单词有关
二阶马尔科夫假设,只与他前两个单词有关
三元语法模型是马尔科夫模型的直接应用。
用的是二阶马尔科夫假设。
这里的q就是对真实p的估计,是需要学习的参数。
对参数的约束如下
参数数量庞大:
原始想法,用出现次数估计概率:
缺点:参数相比于样本,数量非常大,很多count都将是0,低估了概率(系统误差);分母可能会是0
混淆度是评价语言模型的方法。
m是句子总数。此概率越大越好?