distributional similarity based representations: word2vec

最新推荐文章于 2022-08-02 21:10:56 发布

CyanSai

最新推荐文章于 2022-08-02 21:10:56 发布

阅读量311

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/iamnotironman/article/details/92428232

版权

自然语言处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

word2vec

什么是word2vec

word3vec从广义上讲是泛称，指用来使文本向量化成计算能读懂的形式的技术。word2vec通过训练神经网络进行预测任务，来得到该词的向量表示。

两种训练的方法：

Given a sentence with a missing word, find me the missing word：用语境来预测目标词，即continuous bag of words, or CBOW
Given a word, predict me which other words should go around：用词来预测语境，即skip-gram

后者可以在大数据集上有更准确的效果，下面分别说明这两种方法。

CBOW

在这里插入图片描述
从上图可以看到，CBOW构建训练集时，对于一个句子，挖去其中的一个词，然后将这个词作为输出，句中其余的词作为输入。

skip-gram

在这里插入图片描述
从上图可以看到，skip-gram在构建训练集时，对于中央词"red"，一个滑动窗口（n-gram，后面会提到）所涵盖的其余词by, a, bus, in就是中央词"red"的context，根据skip-gram的方法：通过词预测他的context，构建出了input为red，output分别为by, a, bus, in的训练数据。

skip-gram之n-gram

定义：Words are read into the vector one at a time, and scanned back and forth within a certain range.

从上一段可以看到，n-gram的方法体现在了构建训练集上

skip-gram的具体实现过程

在这里插入图片描述
假设字典大小为1000，词向量长度为300. 可以看到输入的是一个中央词的one-hot的编码，然后乘上一个矩阵，得到他的vector，之后乘上一个矩阵，再进入softmax函数，得到每个词会作为context的概率。

skip-gram改进

skip-gram改进之subsampling

subsampling方法是如果一个词出现的次数很多，如the，可以知道，以the作为context时，对那个词的语义的向量表示并没有太多贡献；并且对于the的语义的向量表示来说，因为the的出现频率高，会太多的训练数据。
所以改进方法为：

如果the在某个词的context中，不会把这对数据加入训练集
只选择部分以the作为中央词汇的数据对加入训练集

skip-gram改进之negative sampling

在这里插入图片描述
上图为一个skip-gram模型的流程，输入词为not，第一步可以理解为为在一个look-up table查找not对应的向量，第二步为输出层计算出logits，第三部使用softmax函数计算字典中每个词为context的可能性，可以想象到计算量会十分巨大。
为了改进，我们把任务转换为，输入变为同时输入input word和target word，让模型预测target word是否是inout word的context，如下图：
在这里插入图片描述
但这样的训练集只会训练出只能预测1的模型，生成的word embedding也是不可用的，所以需要引入negative samples来解决这个问题。
引入后的训练集如下图：

这样，数据集便能平衡。