古董word2vec

最新推荐文章于 2024-09-30 08:12:50 发布

hyzhyzhyz12345

最新推荐文章于 2024-09-30 08:12:50 发布

阅读量205

点赞数

分类专栏：词向量 word2vec 文章标签：自然语言处理

本文链接：https://blog.csdn.net/hyzhyzhyz12345/article/details/104141544

版权

词向量同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

word2vec

1 篇文章 0 订阅

订阅专栏

word representation从离散空间开始，one-hot，bag-of-words（将各词的one-hot词向量加和表示句子），TF-IDF（解决了词频高不一定是词重要，“的” “了” “要”，这些词很常见，但不是重要，另外词的顺序没有考虑），N-gram（按句子的顺序，分别取相邻N=1个词，N=2个词。。。建立索引）在这里插入图片描述
离散表示的问题：1无法衡量词向量之间的关系，2词表维度随着语料库增长膨胀，3n-gram词序列随语料库膨胀更快，4数据稀疏问题

因为离散表示以上问题，就出现了词的分布式表示，将一个词的信息分布到固定维度的位置上去，变为稠密的向量可以计算词之间的余弦相似度和单词表示的维度。最初的神经网络语言模型的词向量是模型的副产品，而word2vec主要用来训练得到分布式词向量。

word2vec 输入是One-Hot Vector，Hidden Layer没有激活函数，也就是线性的单元。Output Layer维度跟Input Layer的维度一样，用的是Softmax回归。当模型训练好以后，我们并不会用这个训练好的模型处理新的任务，我们真正需要的是这个模型通过训练数据所学得的参数，例如隐层的权重矩阵。

CBOW(背景词预测中心词）
在这里插入图片描述
概率密度函数

最大化背景词(uo，中心词的窗口内的其他词)产生中心词(uc，中心词在句子中从左向右移动)的概率(通过softmax)，得到最小化损失函数。由于分母中ui是在词典库当中，计算量很大。

Skip-Gram（中心词预测背景词），相比神经网络语言模型，这些模型没有激活函数的非线性变化
在这里插入图片描述
例如下面句子从the开始当中心词，当quick为中心词，quick预测the，quick预测brown，quick预测for，以此类推

概率密度函数如下，最大化中心词预测背景词的概率（最大似然函数），由最后一个式子看出，由于词典库，计算量会很大
在这里插入图片描述
由于训练时计算开销很大，有两种近似训练法减少计算量，分别是负采样和层次softmax，目的是减少softmax分母中的词库。

负采样提出添加噪声词，不选取词典库中的单词，换为随机采样的噪声词，上下文有两种情况背景词和中心词，背景词和噪声词两种情况，相当于二分类，出现背景词和中心词的概率和出现景词和噪声词的概率。
在这里插入图片描述
针对skip-gram模型的负采样，最大化联合概率背景词和中心词的概率和出现景词和噪声词的概率，wo为背景词，wc为中心词，wk为噪声词。

最小化损失函数，这样词典库就减少到噪声词的大小，对于噪声词的选取为随机采样，依据词频将一段【0，1】分为词库大小V份数，每份大小依据词频大小不同而不同，再将【0，1】分为M>>V，在M中随机选取K份，会得到不同的噪声单词，如下所示。
在这里插入图片描述
针对cbow的负采样，同理

最小化损失函数

层次softmax，目标是出现概率高的符号使用较短的编码，出现概率低的符号则使用较长的编码；利用输出层的单词的词频作为叶子节点，非叶子节点二进制编码，构建Huffman树，当n(w,j+1) = left_child(n(w,j)时中括号左节点为1，否则为-1，最大化联合概率；u（w,j）为隐含层的输出，u（w）在skip-gram模型中是中心词的，在cbow模型中是背景词的求和平均。
在这里插入图片描述
最小化损失函数

word2vec的词向量问题是没法解决同义词之间词向量的变化（一次多意），不同意思应该对应不同的词向量。