数据堂面试

最新推荐文章于 2024-02-21 12:09:01 发布

shenzhiping12

最新推荐文章于 2024-02-21 12:09:01 发布

阅读量174

点赞数

一、语义消歧

                    版权声明：本文为博主习伏众神原创文章，转载请注明转自习伏众神。</font><font style="vertical-align: inherit;">https://blog.csdn.net/huaweimember/article/details/21990603                    </font></font></div>
                                                <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-3019150162.css">
                                    <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-3019150162.css">
            <div class="htmledit_views" id="content_views">

语义消歧 可以看作分类问题。一个词W有K个含义，对W消歧就是确定W在特定句子中究竟使用了哪一个含义，即把W分到K类中的一个。分类的依据则是和W邻近的词，即W的上下文C。

歧义可以分为两类：一类是词的语义有多种，如“bank”，可以是银行，也可以是河岸；另一类是词本身的词性也是多样的，如predicate，既能作为名字，也能作为动词。对于前者，

可能需要与W相隔较远的其他词参与消歧，而对于后者，往往通过邻近的词汇就能确定W的词性了。

常用的消歧方法：

一、有监督消歧

1. 贝叶斯分类

s = arg max p(Sk|c), Sk 是W可能包含的语义，C是歧义词的上下文，而s是使该概率最大的语义，即消歧后确定的语义。

2. 基于信息论的方法。以W包含2个语义为例，基本思想是最大化互信息I(P,Q)，P是W的语义集，Q是W的指示器取值集（指示器即能区分W不同语义的关键邻近词）。

例：法语“ prendre”的含义是take或make，其指示器可以是decision,note,example,measure。P划分为p1 = {take，}和p2={make，}，

Q分为Q1 = {note,example,measure,}和Q2 = {decision}, 如果W的指示器为note，出现在Q1中，那么W对应的语义应该对应地出现在P1中，即take。

在这里，P和Q的集合划分的原则是最大化I(P,Q)。

该方法感觉和贝叶斯分类本质上类似，还是基于邻近词，根据概率判决，只是具体的公式不一样。

二、基于词典的消歧（本质上也是无监督消歧的一种）

1. 基于语义定义的消歧。如果词典中对W的第i种定义包含词汇Ei，那么如果在一个包含W的句子中，同时也出现了Ei，那么就认为在该句子中W的语义应该取词典中的第i

种定义。

2. 基于类义辞典的消歧。词的每个语义都定义其对应的主题或范畴（如“网球”对应的主题是“运动”），多个语义即对应了多个主题。如果W的上下文C中的词汇包含多个主题，则取其频率最高的主题，作为W的主题，确定了W的主题后，也就能确定其对应的语义。

3. 基于双语对比的消歧。这种方法比较有创意，即把一种语言作为另一种语言的定义。例如，为了确定“interest”在英文句子A中的含义，可以利用句子A的中文表达，因为

interest的不同语义在中文的表达是不同的。如果句子A对应中文包含“存款利率”，那么“interest”在句子A的语义就是“利率”。如果句子A的对应中文是“我对英语没有兴趣”，

那么其语义就是“兴趣”。

三、无监督消歧

主要是使用EM算法对W的上下文C进行无监督地聚类，也就是对W的语义进行了分类。（当然，该分类的结果不见得就是和词典中对该词的定义分类是匹配的）。

总结

马克思说：”人是社会关系的总和”，那么词的含义就是其上下文关系的体现，所有消歧方法都必须依赖于词的上下文信息，不同方法的区别在于对上下文信息的挖掘程度和方式。也可以看出，消歧成功与否的关键在于能否充分挖掘和利用上下文信息，上下文可以既可以在广度上扩展：从邻近词汇，到跨句，甚至可以到段落，也可以在深度上扩展：从字面语义，到高层的抽象概念。