【CS224n-1】Word Vectors I: Introduction, SVD and Word2Vec

最新推荐文章于 2020-07-12 16:44:22 发布

FB1024

最新推荐文章于 2020-07-12 16:44:22 发布

阅读量201

点赞数

分类专栏： CS224N

本文链接：https://blog.csdn.net/u011613991/article/details/104440988

版权

CS224N 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

在所有NLP任务中，第一个也是可以说是最重要的共同点是，我们如何将所有的单词或字词作为输入，输入到我们构建的模型中去。为了大多数NLP任务具有良好的表现，我们需要对单词之间的相似性和差异性有一些概念。使用字词向量的话，我们可以很容易地使用向量本身编码这种能力（使用距离度量，如Jaccard、cos、Eu- clidean等)。

1.One-hot Vector

首先我们能想到的比较简单的向量表示方法是one-hot，它通过使用一个词袋大小维度(R|V|)的，用0和1构成的向量表示特定的单词。比如：“我很好”->((1,0,0),(0,1,0),(0,0,1))。这种方式构造的向量会随着词袋大小的增加而增加，从而使得维度爆炸，很难进行应用计算。同时还有一个重要问题是，这样的输入向量算出来的距离都是为0 的，也就是说这些词之间的相似性都为0，也就不能够体现词与词之间语义信息。

2.SVD

针对One-hot的问题，我们试着将空间从R|V|缩小到更小的空间，从而找到一个子空间来编码单词之间的关系。对于降维，我们向到了使用SVD算法（可参考：https://blog.csdn.net/acdreamers/article/details/44656963）。

首先我们需要对大型的数据集进行循环遍历，获取到以某种形式的矩阵X对词频共现的技术进行累积，然后对X执行SVD奇异值分解，得到 $USV^{^{T}}$ 。然后我们使用U的行作为字典中所有单词的嵌入。对于矩阵X的构造我们可以考虑以下两种方式：

1) Word-Document Matrix（词-文档矩阵）

使用词-文档矩阵的前提是，我们假设相关的词往往会出现在相同的文档中。例如，“银行”、“债券”、“股票”、“货币”等可能会同时出现。但是“银行”、“章鱼”、“香蕉”和“曲棍球”可能不会总是同时出现。我们利用这个事实来建造一个word-document矩阵，按如下方式得到矩阵X: 循环遍历大量的文档，每次文档j中出现一个词 i，我们就在条目Xij上添加一个。很明显，这是一个非常大的矩阵(R|V|×M)，它可以根据文档的数量(M)进行缩放。

2) Window based Co-occurrence Matrix （基于窗口的词共现矩阵）

同样的逻辑我们可以构造基于窗口的词-词共现关联矩阵。在此方法中，我们计算每个单词在特定大小的窗口中出现的次数。我们计算语料库中所有单词的计数。这也将是一个非常大的矩阵((R|V|×R|V|))下面展示一个例子。假设我们的语料库只有三个句子，窗口大小为1:

使用以上两种方式构造的矩阵x可以编码语义和语法(部分语音)信息的词向量，但也会有以下的一些问题:

•矩阵的维数变化非常频繁(新词频繁添加，语料库大小变化)。

•矩阵非常稀疏，因为大多数单词不会同时出现。

•总体上矩阵的维数很高(≈106×106)

•培训的二次成本(即执行SVD)

•需要在X上加入一些技巧来解释词频的严重不平衡

针对上述问题，现有的一些解决方案：

•忽略虚词如“the”，“he”，“has”等。

•应用一个斜坡窗口——即基于文档中单词之间的距离对共现计数进行加权。

•使用皮尔森相关性和设置负数计数为0，而不是只使用原始计数。

3.Word2vec

Word2vec是基于迭代的方法，不是计算和存储关于一些大型数据集(可能是数十亿个句子)的全局信息，而是尝试创建一个模型，该模型能够一次学习一个迭代，并最终能够对给定上下文的单词的概率进行编码。其思想是设计一个以矢量为参数的模型。然后，按照一定的目标训练模型。在每次迭代中，我们运行我们的模型，评估错误，并遵循一个更新规则，该规则有一些惩罚导致错误的模型参数的概念。

Word2vec是一个软件包，实际上包括:

•算法:连续词包(CBOW)和skip-gram。CBOW的目的是根据上下文的词预测中心词。skip-gram则相反，它从中心词预测上下文词的分布(概率)。

•训练方法:负抽样和层次软最大。负抽样通过抽样负检验组来定义一个目标，而层次式softmax通过一个有效的树结构来计算所有词汇的概率来定义一个目标。

对于Word2vec的介绍网上已有很多很全的资料，可参考（https://zhuanlan.zhihu.com/p/44599645）

FB1024

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【CS224n-1】Word Vectors I: Introduction, SVD and Word2Vec

在所有NLP任务中，第一个也是可以说是最重要的共同点是，我们如何将所有的单词或字词作为输入，输入到我们构建的模型中去。为了大多数NLP任务具有良好的表现，我们需要对单词之间的相似性和差异性有一些概念。使用字词向量的话，我们可以很容易地使用向量本身编码这种能力（使用距离度量，如Jaccard、cos、Eu- clidean等)。1.One-hot Vector 首先我们能想...
复制链接

扫一扫