简与美(7)

脑中的数学是抽象的,手中的数学是简单的。
 
我们已经介绍了隐马模型,并且用动态规划思想解决了隐马模型提出的两个问题。尤其是第二个问题,和我们接下来要讨论的词性标注有直接关系。
 
在NPL领域,有一个称为N元模型的语言统计模型,它对应N-1阶马尔科夫模型。
 
N元模型可用于计算语句W=w1,w2,..,wn的先验概率P(W),在这里用变量W代表一个文本中顺序排列的n个词语。根据概率的乘法规则,P(W)可以分解为:
P(W)=P(w1)P(w2|w1)P(w3|w1,w2) .. P(wn|w1,w2,..,wn-1)
可见,为了预测wn的出现概率,必须要知道它前面所有词语的出现概率。w1,w2,..,wn-1被称为产生wn的历史。随着历史长度的增加,不同历史数按指数级增长。如果历史长度为i-1,则有 kenbin个不同的历史(L为词汇集的大小,还记得排列组合知识吧,这就是一个排列组合结果)。我们必须考虑在所有的 kenbin种历史的情况下,产生第i个词语的概率。也就是说,这样的模型中有 kenbin个自由参数P(wi|w1,w2,..,wi-1)。当L=5000,i=3时,自由参数的数目是1250亿。我们几乎不可能从训练数据中正确的估计这些参数,并且绝大多数的历史(排列组合)在训练数据中根本没有出现。解决这个问题的方法是将历史w1,w2,..,wi-1按照某个法则映射到等价类S(w1,w2,..,wi-1),而等价类的数目远远小于不同历史的数目。有很多方法可以将历史划分为等价类,比如,把参数空间中一些特征相近的元素合并到一起得到一个个等价类,于是,参加运算的是这些类,而不再是单个的元素。从计算角度看,这还是太复杂。如果任意一个词语出现的概率只和它前面的N-1个词语相关,那么问题可以得到进一步的简化。这时的语言模型叫做N元模型或N元语法(N-gram),即:
P(W)=P(w1)P(w2|w1)P(w3|w1,w2)..P(wi|wi-N+1,..,wi-1)
通常N的值不能太大,否则会有太多的等价类,前面提到的过多自由参数的问题仍然存在。当N=1时,即近似认为出现在第i位置上的词语wi独立于历史(它的出现概率跟它前面的词语无关),这种N元语言模型成为一元语法(uni-gram)。当N=2时,即近似认为出现在第i位置上的词语wi的出现概率只跟它前面紧邻的一个词语有关,这种N元语言模型称为二元语法(bi-gram)。当N=3时,即近似认为出现在第i位置上的词语wi的出现概率只跟它前面紧邻的两个词语有关。这种N元语言模型称为三元语法(tri-gram)。其实,N元模型就是N-1阶马尔科夫模型。因此,一元语法就是零阶马尔科夫链,二元语法就是一阶马尔科夫链,三元语法就是二阶马尔科夫链,...。当使用三元语法模型时,P(W) 可以分解为:
P(W)=P(w1)P(w2|w1)P(w3,|w1,w2)P(w4|w2,w3)..P(wi|wi-2,wi-1)
该模型的参数为P(w3|w2,w1),其值可以通过大规模语料库用最大似然估计方法求得:
P(w3|w2,w1)=f(w3|w2,w1)=count(w1,w2,w3)/count(w1,w2)
其中,count(w1,w2,w3)表示一个特定的词序列w1,w2,w3在语料库中出现的次数,count(w1,w2)表示一个特定的词序列w1,w2在语料库中出现的次数,f(w3|w2,w1)表示在给定w1,w2的条件下出现w3的概率。但是,在训练数据中,很可能事件w1,w2,w3这种词序列根本没有出现过,根据最大似然估计,这些事件的概率为零。然而,这些事件的真实概率不一定为零。这就是所谓的数据稀疏问题。这个问题有一些方法解决,比如遇到概率为零的时候给一个小的数值。
 
我们来看看词性标注问题。
 
词性标注问题可以看作是在给定词的序列W=w1,w2,..,wn的条件下,寻找一个词性标注序列C=c1,c2,..,cn使得P(C|W)最大。P(C|W)表示已知输入词序列W的情况下,出现词性标注序列C的条件概率。根据贝叶斯定律:
P(C|W)=P(W|C)P(C)/P(W)
P(W)是一个常数。可以忽略不计,则:
P(C|W)=P(W|C)P(C)
接着,对公式进行近似。首先,引入独立性假设,认为词序列中任意一个词wi的出现概率近似只跟当前词的词性标注ci有关,而跟上下文的词性标注无关。则词汇概率(某个词以某种词性出现的概率)为:
P(W|C)=P(w1|c1)P(w2|c2)..P(wn|cn)
显然,这是一种一元语法模型,它只考虑词跟在其上可能出现的词性标注之间的统计信息,即一个词用作某种词性的概率。其次,采用二元假设,认为任意词性标注ci的出现概率只跟它的紧邻的前一个词性标注ci+1相关,即:
P(C)=P(c2|c1)P(c3|c2)..P(cn|cn-1)
P(ci|ci-1)是词性标注的转移概率,显然这是一种二元语法模型,他只考虑词性一级上的相邻上下文关系(即某种词性序列是否出现的统计关系),但是没有考虑特定的词跟某种词性标注之间的统计关系(即一个词用作某种词性的概率)。现在公式为:
P(C|W)=P(w1|c1)P(c1|c0)..P(wi|ci)P(ci|ci-1)..P(wn|cn)P(cn|cn-1)
 
到目前为止,我们是用N元模型解释词性标注过程,仔细观察上面那个公式,我们要求的是使得P(C|W)取得最大值的C,这不就是一个隐马尔科夫模型嘛。模型中每个状态对应于一个词性标注,从状态Si(对应于词性标注ci)到状态Sj(对应于词性标注cj)的转移概率aij为相应的词性标注的二元语法模型P(cj|ci),从状态Si输出词语wi的发射概率bi(wi)为基于一元语法的词汇概率P(wi|ci)。于是,词性标注问题变为求隐马尔科夫模型的最佳状态序列的问题。用viterbi算法来解决。
 
另外,这个隐马尔科夫模型中的两个概率参数都可以通过训练数据来分别估计:
P(wi|ci)=count(wi,ci)/count(ci)
P(ci|ci-1)=count(ci-1,ci)/count(ci-1)
第一个公式说的是,词汇概率(发射概率)约等于训练数据中某个词语wi作某种词性ci使用的次数,除以该词性标注ci在训练数据中出现的总次数。第二个公式说的是,转移概率约等于训练数据中某种词性标注ci出现在另一种词性标注ci-1之后的次数,除以另一种词性标注ci-1在训练数据中出现的总次数。
 
我们通过介绍N元模型来说明词性标注的问题,并在最终把N元模型解释的问题转化为隐马尔科夫模型,并介绍了训练隐马参数的估计方法。到目前为止,中文分词系统涉及的大部分知识已经讲述差不多了。至于未登录词的识别问题,也是转化为隐马模型可以解决的问题来求解。后面有时间的时候会单独一篇来讨论。
 
本周开始,工作上会较以前忙一些,因为开始做一些确定的事情,这个系列会写的比较慢,并且我想把已经在之前讨论过的一些问题重新再认识一番,研究发现问题和解决问题的思路,并且发散思维,思考这些模型和方法能否举一反三用在其他技术领域。很值得思考。
 
待续...
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 尊敬的同学们, 悦读会新开张啦!我们是校学生会旗下的一个社团,我们的宗旨是通过阅读来带来审美愉悦。我们相信,阅读是一种美好的生活方式,它能丰富我们的情感、开阔我们的视野、提升我们的才华。我们希望能够聚集各位喜爱阅读的同学,一起分享书籍、交流心得、探讨人生。如果你对阅读充满热情,那么悦读会是你不容错过的地方! 我们期待你的加入,共同探索阅读的乐趣! ### 回答2: 亲爱的同学们, 大家好!我们校学生会非常高兴地向大家宣布成立了新的社团——“悦读会”。在这个让人心旷神怡的角落,我们将共同追寻阅读的魅力,感受阅读所带来的审美愉悦! 阅读,是一扇通往知识的门窗,也是一次心灵的滋养。每当我们打开一本书的时候,仿佛融入了一个崭新的世界,给予我们无限的想象力和创造力。在这里,你会遇见从古至今的伟大文学作品,见证历史的变迁,领略不同文化的风采。而更重要的是,你会找到内心的平静和快乐。 “悦读会”不仅仅是一个读书的地方,更是一片感受美的净土。我们将举办各种形式的活动,包括读书分享会、文艺讲座、艺术展览等等,旨在用美妙的艺术之光点亮校园的每一个角落,为你提供与众不同的审美体验。 在这个社团里,你将遇到志同道合的同学,他们像您一样热爱阅读,乐于交流彼此的心得与感受。无论你喜欢哪个领域的读物,都能找到你的阅读伴侣和知音。或许在每一个静谧的夜晚,我们能一起享受躺在床上的悠然时光,分享心中最美丽的文字。 如果你对文学艺术充满热情,如果你希望追寻审美的愉悦,那么请加入我们的“悦读会”。在这里,你将收获别样的人生智慧和情感启发,也将找到自己与他人分享的快乐。 悦读,启迪心灵。加入我们,与书为友,与美为邻。 让我们一起开启这段读书的旅程吧!相信未来的岁月里,“悦读会”将成为我们心灵自由飞翔的翅膀,让我们在阅读的海洋中感受无尽的快乐。 期待你的加入! 校学生会 “悦读会”

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值