统计自然语言处理基础-第七章 语义消歧(笔记)

语义消歧是自然语言处理中的关键任务,旨在确定歧义词在特定上下文中的确切含义。本文介绍了有监督、无监督和基于词典的消歧方法,包括贝叶斯分类、信息论方法、Lesk算法等。通过对上下文特征、词典资源和无监督聚类的利用,以提高消歧的准确性。
摘要由CSDN通过智能技术生成

7 语义消歧

语义消歧就是为了解决歧义问题:很多词语都有几个意思或者语义,如果把这样的词从上下文中独立出来考虑,就会产生语义歧义。

其任务是确定一个歧义词的哪一种语义在一个特殊的使用环境中被调用。

词的语义定义由词典、类义辞典或者其他的参考资源给出,消歧的任务就是根据具体的上下文确定某一个歧义词的确切含义。(不同词典给出的定义又不完全相同)一个词的不同含义是相互联系相互交叉的

最简单的处理方法是把一个词的语义定义为一部特殊词典给出的意思。但不太合适。

一个词具有不同的词性是另外一种歧义。确定一个词的词性也是标注的任务。(10章)

同一词汇的不同词性的识别问题可以被看做是一个语义消歧问题;识别语义也可以看做一种标注问题,但是要使用语义标注而不是词性标注。近邻的结构信息使用来确定词性的,但是一般不会用来确定语义;而一个相隔很远的实词对于确定语义是很有效的,但是很少用来确定词性。大部分的词性标注模型简单的使用当前上下文,而语义消歧模型使用规模广泛一些的上下文中的实词

有监督消歧:一种基于标注训练集的消歧

基于词典的消歧:建立在词典资源上,词典或者类义辞典

无监督消歧:未标注文本将应用到训练中

7.1 预备知识

7.1.1 有监督和无监督学习

有监督学习的训练数据是已知的(这里是语义标注),被称为分类任务函数拟合:就是基于一些数据点推断出函数的形态

无监督学习的训练数据的分类是未知的,被称为聚类任务

现实中,人们从未标注数据中学习,在自己的算法中使用各种知识资源:词典或更加结构化的数据:对齐的双语数据。

7.1.2 伪词

对大量的测试数据进行手工消歧,费时费力,通常会产生一些人工数据,用来比较和提高算法性能。在语义消歧的情况下,这些人工数据称为伪词。

创建伪词:合并两个或多个自然词汇,伪词 banana-door,用这个词代替文中的banana和door。训练集和测试集就是修改后的文本作为歧义源文本,最初的作为消歧后的文本。

7.1.3 算法性能的上界和下界

衡量某人的算法的效能是非常重要的,但是不讨论这个算法相对于任务的困难程度评价而仅做数字上的评估,是没有意义的,即不同自然语言处理的实现难度是有差别的。

上界通常是指人工的效能,默认人工的准确率大于机器,相互判断的准确性依赖于歧义的类型:对于词的语义差别很大的词(准确率大于95%);对于词语义差别很小时(65-70),消歧是一个二元判断问题时要比是一个任意的聚类问题简单。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值