数据堂面试

一、语义消歧

                    版权声明:本文为博主习伏众神原创文章,转载请注明转自习伏众神。</font><font style="vertical-align: inherit;">https://blog.csdn.net/huaweimember/article/details/21990603                    </font></font></div>
                                                <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-3019150162.css">
                                    <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-3019150162.css">
            <div class="htmledit_views" id="content_views">

语义消歧 可以看作分类问题。一个词W有K个含义,对W消歧就是确定W在特定句子中究竟使用了哪一个含义,即把W分到K类中的一个。分类的依据则是和W邻近的词,即W的上下文C。

歧义可以分为两类:一类是词的语义有多种,如“bank”,可以是银行,也可以是河岸;另一类是词本身的词性也是多样的,如predicate,既能作为名字,也能作为动词。对于前者,

可能需要与W相隔较远的其他词参与消歧,而对于后者,往往通过邻近的词汇就能确定W的词性了。


常用的消歧方法:

一、有监督消歧

     1. 贝叶斯分类

           s = arg max p(Sk|c), Sk 是W可能包含的语义,C是歧义词的上下文,而s是使该概率最大的语义,即消歧后确定的语义。

     2. 基于信息论的方法。以W包含2个语义为例,基本思想是最大化互信息I(P,Q),P是W的语义集,Q是W的指示器取值集(指示器即能区分W不同语义的关键邻近词)。

          例:法语“ prendre”的含义是take或make,其指示器可以是decision,note,example,measure。P划分为p1 = {take,}和p2={make,},

                  Q分为Q1 = {note,example,measure,}和Q2 = {decision}, 如果W的指示器为note,出现在Q1中,那么W对应的语义应该对应地出现在P1中,即take。

                   在这里,P和Q的集合划分的原则是最大化I(P,Q)。

          该方法感觉和贝叶斯分类本质上类似,还是基于邻近词,根据概率判决,只是具体的公式不一样。

       

二、基于词典的消歧(本质上也是无监督消歧的一种

         1. 基于语义定义的消歧。如果词典中对W的第i种定义包含词汇Ei,那么如果在一个包含W的句子中,同时也出现了Ei,那么就认为在该句子中W的语义应该取词典中的第i 

              种定义。

         2. 基于类义辞典的消歧。词的每个语义都定义其对应的主题或范畴(如“网球”对应的主题是“运动”),多个语义即对应了多个主题。如果W的上下文C中的词汇包含多个主 题,则取其频率最高的主题,作为W的主题,确定了W的主题后,也就能确定其对应的语义。

         3. 基于双语对比的消歧。这种方法比较有创意,即把一种语言作为另一种语言的定义。例如,为了确定“interest”在英文句子A中的含义,可以利用句子A的中文表达,因为 

              interest的不同语义在中文的表达是不同的。如果句子A对应中文包含“存款利率”,那么“interest”在句子A的语义就是“利率”。如果句子A的对应中文是“我对英语没有兴趣”,

              那么其语义就是“兴趣”。


三、无监督消歧

           主要是使用EM算法对W的上下文C进行无监督地聚类,也就是对W的语义进行了分类。(当然,该分类的结果不见得就是和词典中对该词的定义分类是匹配的)。

总结


马克思说:”人是社会关系的总和”,那么词的含义就是其上下文关系的体现,所有消歧方法都必须依赖于词的上下文信息,不同方法的区别在于对上下文信息的挖掘程度和方式。也可以看出,消歧成功与否的关键在于能否充分挖掘和利用上下文信息,上下文可以既可以在广度上扩展:从邻近词汇,到跨句,甚至可以到段落,也可以在深度上扩展:从字面语义,到高层的抽象概念。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值