分布式语义学
### 课程概览
- **词汇语义学**:之前的课程讨论了同义词、反义词、上义词、下义词等词汇语义关系以及词义消歧的知识和基于语料库的方法。
### 分布式语义学
- **基本理念**:Firth(1957年)提出的“一个词的含义是由它所处的环境决定的”。Harris(1954年)提出了分布式假设:“在相同上下文中出现的单词往往具有相似的含义”。
- **示例**:通过上下文来推断未知单词“tezguino”的含义。
### 分布式语义学的应用
- **自动生成同义词词典**:适用于任何有语料库的语言、体裁或领域。
- **文档分类中的应用**:例如,在朴素贝叶斯文档相关性分类器中,通过将未见过的单词与类似单词相关联,来克服数据稀疏性问题。
### 如何运作
- **语义特征**:通过依赖关系和单词的接近程度捕捉语义特征,例如:“eat”的主语和宾语。
- **上下文窗口**:使用不同大小的窗口来捕捉不同类型的语义关系。
- **基于频率的分布式表示**:通过窗口计数来提取特征,构建分布式表示或向量。
- **相似性度量**:使用Jaccard度量和余弦相似度等方法。
### 分布式语义学的挑战
- **自动生成同义词词典**:计算成本高昂,可能需要限制词汇量。
- **评估**:困难所在包括内在评估(如人类的同义词判断)和外在评估(如在应用中的性能提升)。
- **词义歧义**:分布式表示是基于词而非词义的,可能会混合多种含义。
- **语义关系区分**:相似词并非总是同义词,词汇邻域通常包含各种语义关系的单词。
- **稀疏性问题**:根据齐普夫定律,高维度的共现向量通常非常稀疏。
### 解决方案
- **平滑**、**降维**以及**固定维度的语言模型(如递归神经网络语言模型)**。
### 总结
- 本课程包含了实验练习,学生被鼓励在实验中深入探索分布式语义学。
课件全面介绍了分布式语义学的原理、应用、挑战以及可能的解决方案,旨在帮助学生理解和运用这一在自然语言处理领域中关键的概念。
在这份课件中,关于分布式语义学的一些重要概念和计算方法包括:
1. **分布式假设**:
- “在相同上下文中出现的单词往往具有相似的含义。”这是分布式语义学的核心理念。
2. **上下文窗口**:
- 用于捕捉单词的语义特征,如在“eat”的上下文中,哪些单词作为主语或宾语出现。
3. **特征提取**:
- 利用依赖关系和词与词之间的接近度(如在给定窗口内)来捕捉语义特征。
4. **分布式表示**:
- 通过计算和统计特征(如共现频率)来构建单词的分布式表示或向量。
6. **点对点互信息(PMI)**:
- 用于衡量单词和特征共现的信息量,更加重视那些不常见但高度相关的特征。
7. **正点对点互信息(PPMI)**:
- 用于避免由于共现频率为0导致的PMI值为负无穷的问题。
这些概念和方法构成了分布式语义学的基础,是理解和应用这一领域中关键的工具。