自然语言处理中的模式(模式1.概率化模式)

              
/* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/

                     自然语言处理中的模式(模式1.概率化模式)

                                CopyMiddle: 张俊林
                                TimeStamp:2010 年 8 月   

      这个世界是确定的吗?刚开始人们认为是的,这其实反映了人类对于认识世界和改造世界一种过于乐观的态度。后来逐渐认识到不确定的世界才是一个更加真实的世界,我们生活在一个概率无处不在的现实里,而且这种不确定的世界也更难把握和改造,反映了人们对世界的认识更加符合实际了。
     不确定性是绝大多数学科的发展方向,即由确定性向不确定性发展;这反映了人们对世界的一种更加深入的认识,物理学本身也符合这个发展趋势,从牛顿的机械世界观到量子物理的测不准原理,基本给人们展示了这个世界是一个可能性的世界,而非确定的世界。
     我个人认为学科发展由定性分析到定量分析代表了其是否科学化,而由完全确定性的定量到不确定性的定量则是这个学科是否进入成熟阶段的标准之一。
     对于自然语言处理来说,其历史也算久远,从其宏观研究思路来说,基本经历了两个大的阶段,即最初的规则化方法到现在已经成为主流的统计方法为主。而这个大的转向和物理学的发展路径是非常相像的。仔细思考的话,其实从上个世纪80年代开始流行的这种研究模式的大转向是有其现实支撑的,即计算机存储和计算资源的快速增长,可以看出其和PC的出现和流行的时机是相当吻合的。这种现实计算资源的快速普及和增长为统计方法的可行性铺平了道路。
      而很明显的一个道理就是:一个研究领域容易出大师的时机有两种,一种是在学科的诞生期,因为还是一片荒地,要建立一座富丽堂皇的大厦,需要有人把地基打扎实。此时很容易出现奠基型的大师。另外一个就是研究模式大转型期,因为此时等于是把原先盖好的房子拆了重建,所以需要新的建筑架构师。这两个时期是容易出大师的绝好时机。
     还是拿物理做例子,现代物理从伽利略,牛顿奠定基石,到相对论的爱因斯坦,量子力学的海森堡,波尔,狄拉克等等,可以看出这个道理。到了近现代,大师不再,是研究人员能力问题吗?我觉得不是,每个时代才智杰出之士从人群比例来说应该是差不多的,那为何才智相当但是大师绝迹了?因为这个学科的大厦奠基完成了,地面上的框架也基本完成了。当然依然存在把这个框架推倒重来的机会,但是这里有个时机的问题,就比如上面说的统计方法的流行,如果离开PC的大规模流行这个物质基础是很难做到的。所以说,研究人员除了才智和勤奋外,自身不可控的领域切入时机和大环境对于决定你在领域中的地位也是非常重要的。
        回到自然语言处理领域,因为这个领域相对不是那么主流,所以领域大师也不是那么为人所熟知。我们就以计算语言学会终生成就奖的获得者来看一下(http://aclweb.org/aclwiki/index.php?title=ACL_Lifetime_Achievement_Award_Recipients)
        从这些获奖大师的情况看,基本上都是属于计算语言学这个领域的奠基人,而且年龄应该都在60以上了,基本贡献领域在语法,语义,形式语言学,机器翻译,信息检索理论。只有今年得奖的Jelinek属于对于研究的概率转型期转向做出巨大贡献的大师,其他基本属于领域奠基人。可以预期,今后的得奖者中概率转型期大师比例会越来越高。但是另外一个很明显的事实是:对于目前40岁以下的自然语言处理领域研究人员来说,指望靠统计方法成为领域大师基本上已经没有太大可能了。统计方法转型基本成熟,这个大厦的框架已经搭好了。想要成为领域大师,你得考虑推倒重建,但是这个时机是否成熟,实在不好判断,因为一个领域越成熟,推倒重建的可能性也就越小。当然,距离机器真正理解人的语言来说(我相信会有这么一天的),路还是太长,在达到这一点前必然还是会出现相当多的大师级人物,这个是个时机问题。

       上面扯得有点跑题了,我们再回到自然语言处理中的概率化转型上来。研究模式的转换必然有其内在原因,自然是新的研究模式能够解决老的研究模式不能解决的很多问题。自然语言处理中的概率化转型相对规则方法有不少优势,当然自身缺点也不少。说来话长,不展开说了,这里介绍一个比较直观的优点。
   
      在自然语言处理中,歧义是非常容易出现的问题,无论是在分词,句法,语义各个层面都会面临歧义的问题,所谓歧义代表了对于一个输入有若干种输出,那么此时选择哪个作为正确输出就成为了一个问题。概率的引入为此提供了一个直观的解决方案,即选择概率值最大的作为正确的结果。从下面例子可以看出这点来。

      最直观的说明自然语言处理研究中的概率化倾向的可以以句法分析中的PCFG的发展过程为例子。
案例一:从CFG到PCFG
      句法分析的任务目标很清楚,即给定一个自然语言句子,要确定句子中的单词之间的相互关系是如何的。一般的做法是将一个句子通过一定的算法映射成一颗语法树,通过语法树即可判断句子构成元素之间的关系是怎样的。
     比如:句子 John called Mary from Denver.  对应的句法分析树为:
                         

     CFG是非常经典的语法分析工具,基本思路为定义一组句法规则,根据句法规则来将句子逐步解析为一颗句法树。
     比如上面的例子,即可以从下述句法规则逐步构建成句法树。
    S -> NP VP
    VP -> V NP
    NP -> NP PP
    VP -> VP PP
    PP -> P NP
    NP -> John | Mary | Denver
    V -> called
    P -> from

     可以看出来,CFG是非概率化的分析模型,对于句法分析来说,可能存在歧义句法树,即给定一个句子,可以构造若干个句法树,这些句法树都是符合条件的。此时,一个很自然的想法就是加入概率化因素,这样即使有若干个句法树,可以根据句法树的概率来进行选择,优先选择概率大的作为分析结果。
     具体把CFG改造为PCFG思路也非常简单直接,即给CFG的每条句法规则赋予一个概率,这个概率代表了这条规则出现的可能性大小。比如以下的经过改造的句法规则集合
    

     对于左端非终结符动词短语VP来说,有两条句法规则VP
—> V NP 和 VP—>VP PP,因为VP —> V NP更常见,所以经过统计赋值0.7,另外一条赋值1-0.7=0.3,即同一个左端非终结符的语法规则总的概率值为1。
     有了上面的概率信息,那么就很容易解决CFG不能解决的问题了,即对于所有可能的句法分析树,计算其整体概率,选择概率最大的作为分析结果。比如下面例子:
     对于句子:Astronomers saw stars with ears.  明显是有附着歧义的,可以有两个合法的句法分析树:

        
 
     根据计算,可知T1会作为句法分析的结果。


   案例二:中文分词中概率信息的引入;
        中文分词中歧义消除,未登录词识别,新词识别是其主要面临的问题。最初的中文分词思路很简单,就是直接查词典,然后按照正向或者反向最大匹配来对字符串进行切割。为了解决歧义问题,一个最直接的想法就是把单词概率信息引入,其基本思路和上面介绍的从DFG到PCFG的发展是类似的。
     比如,要分词的歧义句子为:化妆品和服装。
     其可能的分词结果有两个:
        化妆品   和服  装
        化妆品   和    服装
     那么应该输出哪个呢?如果加入概率信息明显有助于解决这个问题,假设我们已经知道每个单词在一定的训练预料集合里面出现的概率大小,那么计算结果中概率值大的那个作为输出结果即可。

     以上两个例子引入了概率来解决歧义问题,其基本思想非常直观,即我们选择最常见的组合作为正确结果,很明显这个思路不能根本解决问题,但是能解决很大一部分问题,这也正是概率的作用和限制所在。

     上面举了两个相对细的例子,其实作为一个研究范式的转换,很多子领域都可以认为属于这个模式。从概率化模式这个研究模式来说,因为这个转型已经做了将近30年的工作,所以基本NLP的所有子领域都差不多已经做到这点。利用这个模式进行研究创新机会应该说已经不太多了,除了语义,语用领域可能不太成熟,其它子领域已经比较成熟了。虽说应用这个研究模式实战意义已经不大,但是作为一个领域中的目前主流研究思路,把握其思想精髓对于加深这个领域的整体理解还是有重要意义的。

  • 0
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 24
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 24
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值