自然语言处理(五)

词义消歧

这节课主要探讨了词义消歧(Word Sense Disambiguation, WSD)的概念和方法。以下是对课件内容的详细梳理:

1. **词义消歧的重要性**:
   - 词义消歧是自然语言处理中的关键任务,旨在确定多义词在特定上下文中的确切意义。

2. **一词一义假设(One Sense Per Collocation)**:
   - 根据Yarowsky (1993),一词一义假设指出,依赖于定义的意义和搭配,一个多义词在给定搭配中只有一个意义的概率高达90-99%。

3. **一词一篇假设(One Sense Per Discourse)**:
   - 根据Gale等人(1992)的研究,一个词在一篇连贯的文章中倾向于保持同一意义。

4. **主导意义(Predominant Sense)**:
   - 多数词有一个高度主导的意义。在缺乏其他信息时,选择这个主导意义是一种有效的启发式方法。

5. **词义消歧的方法**:
   - 知识库方法(Knowledge-based methods):依赖于字典、词典和词汇知识库。
   - 监督式语料库方法(Supervised corpus-based methods):基于带有类别标签的训练数据。
   - 半监督式语料库方法(Semi-supervised corpus-based methods):结合监督式方法和自举(Bootstrapping)等技术。
   - 无监督语料库方法(Unsupervised corpus-based methods):不依赖于先验知识库或人工标记的训练数据。

6. **Lesk算法**:
   - 通过比较词典定义之间的重叠来进行词义消歧。

7. **简化Lesk算法**:
   - 在当前上下文中找到与其词典定义重叠最多的词义。

8. **改进的Lesk算法**:
   - 通过增加相关词汇(如同义词、上下义词)来增强词典定义。

9. **词义相似度测量**:
   - 基于WordNet层级结构,通过测量语义距离来确定合适的词义。

10. **语义相似度测量法中的问题**:
    - 语义相似度测量法可能无法捕捉到不同词性之间的正确语义关系。

11. **有监督的WSD方法**:
    - 需要一个已定义的意义清单和带有类别标签的训练数据。

12. **特征提取**:
    - 将每个词义的实例编码为特征向量。

13. **分类器**:
    - 根据训练样本找到最佳模型以预测测试样本。

14. **词义判别(Word Sense Discrimination)**:
    - 不同于传统的词义消歧,它通过聚类方法探索一个词的不同用法。

15. **词义消歧的未来**:
    - 探讨了对于细粒度意义判别的需求和可行性。

这节课程提供了词义消歧的全面概述,涵盖了从基本概念到具体技术的各个方面。

 

下面是课件中涉及的一些重要公式和概念:

### 重要概念:

1. **词义消歧(Word Sense Disambiguation, WSD)**:确定多义词在特定上下文中的确切含义。

2. **一词一义假设(One Sense Per Collocation)**:在给定搭配中,一个多义词通常只有一个意义。

3. **一词一篇假设(One Sense Per Discourse)**:在一篇连贯的文章中,一个词倾向于保持同一意义。

4. **主导意义(Predominant Sense)**:多数词有一个高度主导的意义。

### 重要公式:

1. **Lesk算法**:
   - 对于每个词义i的词W1,计算与W2的词义j的重叠。
   - 选择重叠最大的i和j,将词义i分配给W1,词义j分配给W2。

2. **最大似然估计(Maximum Likelihood Estimation, MLE)**:
   - 估计先验概率P(s)和条件概率P(f|s)。

3. **Naïve Bayes分类器**:
   - 应用贝叶斯规则计算最大概率的意义。
   - 通过假设特征相互独立,简化条件概率的估计。

4. **K最近邻分类器(K Nearest Neighbors, KNN)**:
   - 找到与测试样本最相似的k个训练样本,输出这些样本中的多数类作为预测类别。

5. **词义相似度测量**:
   - 使用词汇资源(如WordNet)中的语义关系来量化词义之间的相似度。

这些概念和公式是课件中讨论的关键要点,用于帮助理解词义消歧任务及其相关方法。

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值