词义消歧
这节课主要探讨了词义消歧(Word Sense Disambiguation, WSD)的概念和方法。以下是对课件内容的详细梳理:
1. **词义消歧的重要性**:
- 词义消歧是自然语言处理中的关键任务,旨在确定多义词在特定上下文中的确切意义。
2. **一词一义假设(One Sense Per Collocation)**:
- 根据Yarowsky (1993),一词一义假设指出,依赖于定义的意义和搭配,一个多义词在给定搭配中只有一个意义的概率高达90-99%。
3. **一词一篇假设(One Sense Per Discourse)**:
- 根据Gale等人(1992)的研究,一个词在一篇连贯的文章中倾向于保持同一意义。
4. **主导意义(Predominant Sense)**:
- 多数词有一个高度主导的意义。在缺乏其他信息时,选择这个主导意义是一种有效的启发式方法。
5. **词义消歧的方法**:
- 知识库方法(Knowledge-based methods):依赖于字典、词典和词汇知识库。
- 监督式语料库方法(Supervised corpus-based methods):基于带有类别标签的训练数据。
- 半监督式语料库方法(Semi-supervised corpus-based methods):结合监督式方法和自举(Bootstrapping)等技术。
- 无监督语料库方法(Unsupervised corpus-based methods):不依赖于先验知识库或人工标记的训练数据。
6. **Lesk算法**:
- 通过比较词典定义之间的重叠来进行词义消歧。
7. **简化Lesk算法**:
- 在当前上下文中找到与其词典定义重叠最多的词义。
8. **改进的Lesk算法**:
- 通过增加相关词汇(如同义词、上下义词)来增强词典定义。
9. **词义相似度测量**:
- 基于WordNet层级结构,通过测量语义距离来确定合适的词义。
10. **语义相似度测量法中的问题**:
- 语义相似度测量法可能无法捕捉到不同词性之间的正确语义关系。
11. **有监督的WSD方法**:
- 需要一个已定义的意义清单和带有类别标签的训练数据。
12. **特征提取**:
- 将每个词义的实例编码为特征向量。
13. **分类器**:
- 根据训练样本找到最佳模型以预测测试样本。
14. **词义判别(Word Sense Discrimination)**:
- 不同于传统的词义消歧,它通过聚类方法探索一个词的不同用法。
15. **词义消歧的未来**:
- 探讨了对于细粒度意义判别的需求和可行性。
这节课程提供了词义消歧的全面概述,涵盖了从基本概念到具体技术的各个方面。
下面是课件中涉及的一些重要公式和概念:
### 重要概念:
1. **词义消歧(Word Sense Disambiguation, WSD)**:确定多义词在特定上下文中的确切含义。
2. **一词一义假设(One Sense Per Collocation)**:在给定搭配中,一个多义词通常只有一个意义。
3. **一词一篇假设(One Sense Per Discourse)**:在一篇连贯的文章中,一个词倾向于保持同一意义。
4. **主导意义(Predominant Sense)**:多数词有一个高度主导的意义。
### 重要公式:
1. **Lesk算法**:
- 对于每个词义i的词W1,计算与W2的词义j的重叠。
- 选择重叠最大的i和j,将词义i分配给W1,词义j分配给W2。
2. **最大似然估计(Maximum Likelihood Estimation, MLE)**:
- 估计先验概率P(s)和条件概率P(f|s)。
3. **Naïve Bayes分类器**:
- 应用贝叶斯规则计算最大概率的意义。
- 通过假设特征相互独立,简化条件概率的估计。
4. **K最近邻分类器(K Nearest Neighbors, KNN)**:
- 找到与测试样本最相似的k个训练样本,输出这些样本中的多数类作为预测类别。
5. **词义相似度测量**:
- 使用词汇资源(如WordNet)中的语义关系来量化词义之间的相似度。
这些概念和公式是课件中讨论的关键要点,用于帮助理解词义消歧任务及其相关方法。