统计自然语言处理基础-第七章语义消歧（笔记）

最新推荐文章于 2024-05-18 17:31:51 发布

hardworking-AI

最新推荐文章于 2024-05-18 17:31:51 发布

阅读量2.1k

点赞数 2

文章标签：自然语言处理机器学习人工智能 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44900754/article/details/127195917

版权

语义消歧是自然语言处理中的关键任务，旨在确定歧义词在特定上下文中的确切含义。本文介绍了有监督、无监督和基于词典的消歧方法，包括贝叶斯分类、信息论方法、Lesk算法等。通过对上下文特征、词典资源和无监督聚类的利用，以提高消歧的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

7 语义消歧

语义消歧就是为了解决歧义问题：很多词语都有几个意思或者语义，如果把这样的词从上下文中独立出来考虑，就会产生语义歧义。

其任务是确定一个歧义词的哪一种语义在一个特殊的使用环境中被调用。

词的语义定义由词典、类义辞典或者其他的参考资源给出，消歧的任务就是根据具体的上下文确定某一个歧义词的确切含义。（不同词典给出的定义又不完全相同）一个词的不同含义是相互联系相互交叉的

最简单的处理方法是把一个词的语义定义为一部特殊词典给出的意思。但不太合适。

一个词具有不同的词性是另外一种歧义。确定一个词的词性也是标注的任务。（10章）

同一词汇的不同词性的识别问题可以被看做是一个语义消歧问题；识别语义也可以看做一种标注问题，但是要使用语义标注而不是词性标注。近邻的结构信息使用来确定词性的，但是一般不会用来确定语义；而一个相隔很远的实词对于确定语义是很有效的，但是很少用来确定词性。大部分的词性标注模型简单的使用当前上下文，而语义消歧模型使用规模广泛一些的上下文中的实词。

有监督消歧：一种基于标注训练集的消歧

基于词典的消歧：建立在词典资源上，词典或者类义辞典

无监督消歧：未标注文本将应用到训练中

7.1 预备知识

7.1.1 有监督和无监督学习

有监督学习的训练数据是已知的（这里是语义标注），被称为分类任务或函数拟合：就是基于一些数据点推断出函数的形态

无监督学习的训练数据的分类是未知的，被称为聚类任务

现实中，人们从未标注数据中学习，在自己的算法中使用各种知识资源：词典或更加结构化的数据：对齐的双语数据。

7.1.2 伪词

对大量的测试数据进行手工消歧，费时费力，通常会产生一些人工数据，用来比较和提高算法性能。在语义消歧的情况下，这些人工数据称为伪词。

创建伪词：合并两个或多个自然词汇，伪词 banana-door，用这个词代替文中的banana和door。训练集和测试集就是修改后的文本作为歧义源文本，最初的作为消歧后的文本。

7.1.3 算法性能的上界和下界

衡量某人的算法的效能是非常重要的，但是不讨论这个算法相对于任务的困难程度评价而仅做数字上的评估，是没有意义的，即不同自然语言处理的实现难度是有差别的。

上界通常是指人工的效能，默认人工的准确率大于机器，相互判断的准确性依赖于歧义的类型：对于词的语义差别很大的词（准确率大于95%）；对于词语义差别很小时（65-70），消歧是一个二元判断问题时要比是一个任意的聚类问题简单。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。