自然语言处理（五）

最新推荐文章于 2024-07-19 22:46:50 发布

胶布️

最新推荐文章于 2024-07-19 22:46:50 发布

阅读量265

点赞数 4

文章标签：人工智能 python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79827103/article/details/137523000

版权

词义消歧

这节课主要探讨了词义消歧（Word Sense Disambiguation, WSD）的概念和方法。以下是对课件内容的详细梳理：

1. **词义消歧的重要性**：
- 词义消歧是自然语言处理中的关键任务，旨在确定多义词在特定上下文中的确切意义。

2. **一词一义假设（One Sense Per Collocation）**：
- 根据Yarowsky (1993)，一词一义假设指出，依赖于定义的意义和搭配，一个多义词在给定搭配中只有一个意义的概率高达90-99%。

3. **一词一篇假设（One Sense Per Discourse）**：
- 根据Gale等人（1992）的研究，一个词在一篇连贯的文章中倾向于保持同一意义。

4. **主导意义（Predominant Sense）**：
- 多数词有一个高度主导的意义。在缺乏其他信息时，选择这个主导意义是一种有效的启发式方法。

5. **词义消歧的方法**：
- 知识库方法（Knowledge-based methods）：依赖于字典、词典和词汇知识库。
- 监督式语料库方法（Supervised corpus-based methods）：基于带有类别标签的训练数据。
- 半监督式语料库方法（Semi-supervised corpus-based methods）：结合监督式方法和自举（Bootstrapping）等技术。
- 无监督语料库方法（Unsupervised corpus-based methods）：不依赖于先验知识库或人工标记的训练数据。

6. **Lesk算法**：
- 通过比较词典定义之间的重叠来进行词义消歧。

7. **简化Lesk算法**：
- 在当前上下文中找到与其词典定义重叠最多的词义。

8. **改进的Lesk算法**：
- 通过增加相关词汇（如同义词、上下义词）来增强词典定义。

9. **词义相似度测量**：
- 基于WordNet层级结构，通过测量语义距离来确定合适的词义。

10. **语义相似度测量法中的问题**：
- 语义相似度测量法可能无法捕捉到不同词性之间的正确语义关系。

11. **有监督的WSD方法**：
- 需要一个已定义的意义清单和带有类别标签的训练数据。

12. **特征提取**：
- 将每个词义的实例编码为特征向量。

13. **分类器**：
- 根据训练样本找到最佳模型以预测测试样本。

14. **词义判别（Word Sense Discrimination）**：
- 不同于传统的词义消歧，它通过聚类方法探索一个词的不同用法。

15. **词义消歧的未来**：
- 探讨了对于细粒度意义判别的需求和可行性。

这节课程提供了词义消歧的全面概述，涵盖了从基本概念到具体技术的各个方面。

下面是课件中涉及的一些重要公式和概念：

### 重要概念：

1. **词义消歧（Word Sense Disambiguation, WSD）**：确定多义词在特定上下文中的确切含义。

2. **一词一义假设（One Sense Per Collocation）**：在给定搭配中，一个多义词通常只有一个意义。

3. **一词一篇假设（One Sense Per Discourse）**：在一篇连贯的文章中，一个词倾向于保持同一意义。

4. **主导意义（Predominant Sense）**：多数词有一个高度主导的意义。

### 重要公式：

1. **Lesk算法**：
- 对于每个词义i的词W1，计算与W2的词义j的重叠。
- 选择重叠最大的i和j，将词义i分配给W1，词义j分配给W2。

2. **最大似然估计（Maximum Likelihood Estimation, MLE）**：
- 估计先验概率P(s)和条件概率P(f|s)。

3. **Naïve Bayes分类器**：
- 应用贝叶斯规则计算最大概率的意义。
- 通过假设特征相互独立，简化条件概率的估计。

4. **K最近邻分类器（K Nearest Neighbors, KNN）**：
- 找到与测试样本最相似的k个训练样本，输出这些样本中的多数类作为预测类别。

5. **词义相似度测量**：
- 使用词汇资源（如WordNet）中的语义关系来量化词义之间的相似度。

这些概念和公式是课件中讨论的关键要点，用于帮助理解词义消歧任务及其相关方法。

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理（五）

1. **词义消歧（Word Sense Disambiguation, WSD）**：确定多义词在特定上下文中的确切含义。2. **一词一义假设（One Sense Per Collocation）**：在给定搭配中，一个多义词通常只有一个意义。3. **一词一篇假设（One Sense Per Discourse）**：在一篇连贯的文章中，一个词倾向于保持同一意义。- 多数词有一个高度主导的意义。4. **主导意义（Predominant Sense）**：多数词有一个高度主导的意义。
复制链接

扫一扫

胶布️ CSDN认证博客专家 CSDN认证企业博客

码龄1年

55: 原创

115万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

717: 积分

184: 粉丝

159: 获赞

26: 评论

174: 收藏

私信

关注

热门文章

最新评论

图像处理（三）
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
图像处理（五）
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
图像处理（四）
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
图像处理（一）
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
图像处理（一）
2401_84024497: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。