自然语言处理(八)

分布式语义学

### 课程概览
- **词汇语义学**:之前的课程讨论了同义词、反义词、上义词、下义词等词汇语义关系以及词义消歧的知识和基于语料库的方法。

### 分布式语义学
- **基本理念**:Firth(1957年)提出的“一个词的含义是由它所处的环境决定的”。Harris(1954年)提出了分布式假设:“在相同上下文中出现的单词往往具有相似的含义”。
- **示例**:通过上下文来推断未知单词“tezguino”的含义。

### 分布式语义学的应用
- **自动生成同义词词典**:适用于任何有语料库的语言、体裁或领域。
- **文档分类中的应用**:例如,在朴素贝叶斯文档相关性分类器中,通过将未见过的单词与类似单词相关联,来克服数据稀疏性问题。

### 如何运作
- **语义特征**:通过依赖关系和单词的接近程度捕捉语义特征,例如:“eat”的主语和宾语。
- **上下文窗口**:使用不同大小的窗口来捕捉不同类型的语义关系。
- **基于频率的分布式表示**:通过窗口计数来提取特征,构建分布式表示或向量。
- **相似性度量**:使用Jaccard度量和余弦相似度等方法。

### 分布式语义学的挑战
- **自动生成同义词词典**:计算成本高昂,可能需要限制词汇量。
- **评估**:困难所在包括内在评估(如人类的同义词判断)和外在评估(如在应用中的性能提升)。
- **词义歧义**:分布式表示是基于词而非词义的,可能会混合多种含义。
- **语义关系区分**:相似词并非总是同义词,词汇邻域通常包含各种语义关系的单词。
- **稀疏性问题**:根据齐普夫定律,高维度的共现向量通常非常稀疏。

### 解决方案
- **平滑**、**降维**以及**固定维度的语言模型(如递归神经网络语言模型)**。

### 总结
- 本课程包含了实验练习,学生被鼓励在实验中深入探索分布式语义学。

课件全面介绍了分布式语义学的原理、应用、挑战以及可能的解决方案,旨在帮助学生理解和运用这一在自然语言处理领域中关键的概念。

 

在这份课件中,关于分布式语义学的一些重要概念和计算方法包括:

1. **分布式假设**:
   - “在相同上下文中出现的单词往往具有相似的含义。”这是分布式语义学的核心理念。

2. **上下文窗口**:
   - 用于捕捉单词的语义特征,如在“eat”的上下文中,哪些单词作为主语或宾语出现。

3. **特征提取**:
   - 利用依赖关系和词与词之间的接近度(如在给定窗口内)来捕捉语义特征。

4. **分布式表示**:
   - 通过计算和统计特征(如共现频率)来构建单词的分布式表示或向量。

b1432d9c237c47c0bd42bef62d1204a3.png 

6. **点对点互信息(PMI)**:
   - 用于衡量单词和特征共现的信息量,更加重视那些不常见但高度相关的特征。

7. **正点对点互信息(PPMI)**:
   - 用于避免由于共现频率为0导致的PMI值为负无穷的问题。

这些概念和方法构成了分布式语义学的基础,是理解和应用这一领域中关键的工具。

 

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值