第九篇：分布式语义

最新推荐文章于 2023-12-20 04:44:06 发布

flying_1314

最新推荐文章于 2023-12-20 04:44:06 发布

阅读量1.9k

点赞数 1

分类专栏： NLP 文章标签： PMI word2vec tf-idf SVD skip-gram

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flying_1314/article/details/117930877

版权

NLP 专栏收录该内容

27 篇文章 9 订阅

订阅专栏

本文深入探讨了分布式语义表示的原理和方法，包括词频统计、向量空间模型、TF-IDF、SVD、PMI、词嵌入以及Word2Vec的Skip-gram模型。重点介绍了如何通过上下文信息获取词的分布式表示，以及这些方法在无监督学习和下游任务中的应用和评估。

摘要由CSDN通过智能技术生成

目录

词法数据库(上一篇提到) - 问题

从上下文猜测意义

基于计数的方法

文档作为上下文

向量空间模型Vector Space Model

操作向量空间模型VSM

奇异值分解SVD

截断——潜在语义分析

使用相邻词作为上下文

逐点互信息PMI

SVD (A = UΣVT)

神经网络方法

神经模型对于嵌入

Skip-gram Model

训练skip-gram模型

一般调查结果

词法数据库(上一篇提到) - 问题

• 手动构建
‣ 昂贵的
‣ 人工标注可能存在偏差和噪声
• 语言是动态的
‣ 生词：俚语、术语等。
‣ 新词义
• Internet 为我们提供了大量文本。我们可以用它来获得词义吗？

分布假设

• 指示主题的文档共现（文档作为上下文）
‣ 例如投票与政治
• 本地上下文反映其含义（词窗口作为上下文）
‣ 例如吃披萨 vs. 吃汉堡

从上下文猜测意义

• 从用法中学习生词

• 另一种方式：查看具有相似上下文的单词！

词向量

• 每一行都可以被认为是一个词向量
• 它描述了一个词的分布特性
‣ 即编码有关其上下文词的信息
• 捕捉各种语义关系（同义词、类比等）

词嵌入？

• 我们之前见过词向量：词嵌入！
• 在这里，我们将学习其他生成词向量的方法
‣ 基于计数的方法
‣ 专为学习词向量而设计的更高效的神经网络方法

大纲

• 基于计数的方法
• 神经网络方法
• 评估

基于计数的方法

• 一般有两种风格
‣ 使用文档作为上下文
‣ 使用相邻词作为上下文

文档作为上下文

向量空间模型Vector Space Model

• 核心思想：将词义表示为向量
• 将文档视为上下文
• 一个矩阵，两个视点
‣ 用单词表示的文档
‣ 用文档表示的单词

操作向量空间模型VSM

• 加权值（超出频率）
• 创建低维密集向量

Tf-idf

• 信息检索的标准加权方案
• 削减常用词！

降维

• 术语文档矩阵非常稀疏
• 降维：创建更短、更密集的向量
• 更实用（功能更少）
• 去除噪音（减少过度拟合）

奇异值分解SVD

简单来说，就是通过矩阵等价转换，将矩阵A分解成三个矩阵乘积的形式

$A=U\Sigma V^{T}$

A: |V|*D的词-文档矩阵

U:|V|*m 新的词矩阵

Σ：m*m 奇异值

D：m*|D| 新的文档矩阵

截断——潜在语义分析

• 将 U、Σ 和 $V^{T}$ 截断为 k 维可生成原始矩阵的最佳 k 秩近似值
• $U^{k}$ 是一种新的单词低维表示
• k 的典型值为 100-5000

简单来说，就是将U 从 |V|*m 的矩阵截断为|V|*k的矩阵

使用相邻词作为上下文

• 列出单词与其他单词一起出现的频率
‣ 在一些预定义的上下文中（例如 N 个单词的窗口）
• 原始频率的明显问题：被常用词主导
‣ 但是我们不能使用 tf-idf！

逐点互信息PMI

• 对于两个事件 x 和 y，PMI 计算以下之间的差异：

‣ 它们的联合分布 =P(x, y)
‣ 他们的个体分布（假设独立）=P(x)P(y)

Σ：这里指的是所有词汇的出现次数总和；

count(x,y): x和y一起出现的次数

$\Sigma_{x}$ : 指的是x出现的次数总和，y也同理

上面的次数都可以从下面的单词的共同出现矩阵中获得。

PMI 矩阵

• PMI 在捕获语义方面做得更好
‣ 例如天堂与地狱
• 但非常偏向于稀有词对(这点可以延申一下，用于网络新词的发现)
• 不能很好地处理零

PMI 技巧

• 将所有负值归零（正 PMI）
‣ 避免 –inf 和不可靠的负值
• 反对对罕见事件的偏见
‣ 平滑概率（归一化 PMI）

SVD (A = UΣVT)

• 无论我们使用文档还是单词作为上下文，都可以应用 SVD 来创建密集向量

神经网络方法

词嵌入

• 我们已经看到了神经网络中使用的词嵌入（第 6篇和第 7篇）
• 但这些模型是为其他任务设计的：
‣ 分类
‣ 语言建模
• 词嵌入只是副产品

神经模型对于嵌入

• 我们能否设计以纯粹学习词嵌入为目标的神经网络？
• 渴望：
‣ 无监督
‣ 高效的

Word2Vec

• 核心理念
‣ 由它所拥有的伙伴你会知道一个词
‣ 使用上下文词预测单词

• 被定义为学习分类器
‣ Skip-gram：预测目标词的周边词

‣ CBOW：使用周围词预测目标词
• 在 L 个位置内使用周围的单词，比如 L=2，也就是目标词左边两个词，右边两个词的范围

Skip-gram Model

• 预测给定目标词的每个相邻词
• 总概率定义为

• 使用逻辑回归模型

P(life| rests) = $\frac{exp(W_{rests}*C_{life})}{\sum_{u\in V}exp(W_{rests}*C_{u}) }$

* ：是点乘

W和C都是对应的词向量

• 两个词嵌入矩阵（W和C）！

i 是目标词嵌入；j是周围词嵌入

• 对单词进行编号，例如，通过对词汇进行排序并使用单词位置作为其索引

这个上面的图，有很多注意点：

1、V是词表大小，d是词向量维度

2. 参数矩阵W和C，就两个

训练skip-gram模型

• 训练以最大化原始文本的可能性
• 在实践中太慢了，因为在|V| 上进行了归一化。

• 将问题简化为二元分类

‣ (life, rests) → 真实上下文词
‣ (alialihaha, rests) → 非上下文词

‣ 如何绘制非上下文词或负样本？
‣ 从 V 随机

负采样

最大化目标词和周围词之间的概率

最小化消极词(非目标词)和周围词之间的概率

这个公式总结一下，如下，非常简单明了

• 在实践中，使用 k 个反例

渴望

• 无监督
‣ 未标记语料库
• 高效的
‣ 负采样（避免在完整词汇表上使用 softmax）
‣ 缩放到非常大的语料库

评估

词相似度

• 使用余弦相似度测量两个词的相似度
• 将预测的相似性与人类直觉进行比较
• 数据集
‣ WordSim-353 是具有判断相关性的名词对
‣ SimLex-999 还涵盖动词和形容词

词类比

v(Man) - v(King) = v(Woman) - v(Queen)

嵌入空间

• Word2Vec 嵌入显示有趣的几何形状

下游任务

• 最佳评估是在其他下游任务中
‣ 使用词袋嵌入作为分类器中的特征表示
‣ 大多数深度学习模型的第一层是嵌入输入文本
‣ 用预训练的词向量初始化它们！

一般调查结果

• Neural Network神经网络 > count 技术
• 上下文词表示效果更好
• 根据上下文变化的动态词向量！
• ELMO 和 BERT（下一篇）

OK! 今天关于分布式语义这一块就到此结束，辛苦大家观看！内容非常杂糅，不过总体来说就是大纲的三部分，通过计数和神经网络的方式去获得分布式语义，然后评估；里面有很多有意思的技术，比如：TF-IDF，PMI, SVD, word2vec

这篇关于word2vec讲解比较宏观，之后可能专门针对论文进行细致理论讲解+代码实现！

今天就到这里啦，再次感谢！

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。