统计学自然语言处理（语义消歧）

最新推荐文章于 2024-08-07 11:38:54 发布

continueOo

最新推荐文章于 2024-08-07 11:38:54 发布

阅读量7.8k

点赞数 2

分类专栏：自然语言处理 NLP 文章标签：自然语言处理算法

本文链接：https://blog.csdn.net/continueOo/article/details/73089424

版权

本文探讨自然语言处理中的语义消歧问题，包括分词消歧、多义词词义判断和词性标注。介绍了基于贝叶斯分类、信息论和词典的消歧方法，以及无监督学习的应用。书中通过实例分析了各种方法的性能和局限性，为理解和改进语义消歧提供了思路。

摘要由CSDN通过智能技术生成

概述

本书本章描述自然语言处理中消除歧义的问题，并介绍几种重要的语义消歧算法，描述他们的资源需求和算法性能。消歧我们应该能直观的想象到就是一句话可能有几个意思。但是落实到具体细节中，我认为主要分以下几种：
１．分词的消歧，这是很常见的一个例子(南京　市　长　江大桥)　
２．多义词的具体词义
３．词性的判断
对于词性的判断可以看做一个词性标注的问题词性标注的话，我们通常考虑邻近上下文。相反，如果是词义判决的话，可能会有相隔很远的词语来决定他的词性。因此大部分的词性标注模型简单地使用当前上下文，而语义消歧模型通常使用规模广泛一些的上下文中的实词。本章将会介绍３个方法：基于标注训练集的有监督消歧，基于词典的消歧，无监督消歧。

性能上下界

性能上界：相同情况下人工标注的性能，这里一定要强调相同判断情况，实际判决中，人往往会将该系统没有利用的特性加入进来，这里有几个思考：
１．系统的性能是有上界的，我们判决时应该使用系统的视角来看待问题。不要全局来看，这样能意识到系统本身的缺陷。
２．正是因为系统有了明显的上界缺陷，才使得我们有改进的方向，比如我们知道利用前后一个词不能判断语义，那么我们考虑的方向就变成了，看一句话我们能否进行这样的判断呢？我们做的是需要不断挖掘我们本能考虑但是系统没有考虑的内容和信息，讲其模型化。