自然语言处理（八）

胶布️

已于 2024-04-08 22:17:03 修改

阅读量447

点赞数 5

文章标签：人工智能 python 机器学习

于 2024-04-08 22:14:45 首次发布

本文链接：https://blog.csdn.net/2301_79827103/article/details/137525911

版权

分布式语义学

### 课程概览
- **词汇语义学**：之前的课程讨论了同义词、反义词、上义词、下义词等词汇语义关系以及词义消歧的知识和基于语料库的方法。

### 分布式语义学
- **基本理念**：Firth（1957年）提出的“一个词的含义是由它所处的环境决定的”。Harris（1954年）提出了分布式假设：“在相同上下文中出现的单词往往具有相似的含义”。
- **示例**：通过上下文来推断未知单词“tezguino”的含义。

### 分布式语义学的应用
- **自动生成同义词词典**：适用于任何有语料库的语言、体裁或领域。
- **文档分类中的应用**：例如，在朴素贝叶斯文档相关性分类器中，通过将未见过的单词与类似单词相关联，来克服数据稀疏性问题。

### 如何运作
- **语义特征**：通过依赖关系和单词的接近程度捕捉语义特征，例如：“eat”的主语和宾语。
- **上下文窗口**：使用不同大小的窗口来捕捉不同类型的语义关系。
- **基于频率的分布式表示**：通过窗口计数来提取特征，构建分布式表示或向量。
- **相似性度量**：使用Jaccard度量和余弦相似度等方法。

### 分布式语义学的挑战
- **自动生成同义词词典**：计算成本高昂，可能需要限制词汇量。
- **评估**：困难所在包括内在评估（如人类的同义词判断）和外在评估（如在应用中的性能提升）。
- **词义歧义**：分布式表示是基于词而非词义的，可能会混合多种含义。
- **语义关系区分**：相似词并非总是同义词，词汇邻域通常包含各种语义关系的单词。
- **稀疏性问题**：根据齐普夫定律，高维度的共现向量通常非常稀疏。

### 解决方案
- **平滑**、**降维**以及**固定维度的语言模型（如递归神经网络语言模型）**。

### 总结
- 本课程包含了实验练习，学生被鼓励在实验中深入探索分布式语义学。

课件全面介绍了分布式语义学的原理、应用、挑战以及可能的解决方案，旨在帮助学生理解和运用这一在自然语言处理领域中关键的概念。

在这份课件中，关于分布式语义学的一些重要概念和计算方法包括：

1. **分布式假设**：
- “在相同上下文中出现的单词往往具有相似的含义。”这是分布式语义学的核心理念。

2. **上下文窗口**：
- 用于捕捉单词的语义特征，如在“eat”的上下文中，哪些单词作为主语或宾语出现。

3. **特征提取**：
- 利用依赖关系和词与词之间的接近度（如在给定窗口内）来捕捉语义特征。

4. **分布式表示**：
- 通过计算和统计特征（如共现频率）来构建单词的分布式表示或向量。

6. **点对点互信息（PMI）**：
- 用于衡量单词和特征共现的信息量，更加重视那些不常见但高度相关的特征。

7. **正点对点互信息（PPMI）**：
- 用于避免由于共现频率为0导致的PMI值为负无穷的问题。

这些概念和方法构成了分布式语义学的基础，是理解和应用这一领域中关键的工具。

胶布️

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理（八）

**基本理念**：Firth（1957年）提出的“一个词的含义是由它所处的环境决定的”。- **词汇语义学**：之前的课程讨论了同义词、反义词、上义词、下义词等词汇语义关系以及词义消歧的知识和基于语料库的方法。- **评估**：困难所在包括内在评估（如人类的同义词判断）和外在评估（如在应用中的性能提升）。- **语义特征**：通过依赖关系和单词的接近程度捕捉语义特征，例如：“eat”的主语和宾语。- **平滑**、**降维**以及**固定维度的语言模型（如递归神经网络语言模型）**。
复制链接

扫一扫