word2vec深入理解及实践

最新推荐文章于 2023-09-21 21:05:05 发布

漂亮的欧尼酱

最新推荐文章于 2023-09-21 21:05:05 发布

阅读量171

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/lhm578618/article/details/109000290

版权

以前对于word2vec的理解就是通过训练能得到词向量，对应有两种方法，skip-gram和CBOW，两者差别其实不大，但关于具体的细节也不是很了解，今天来深入理解并记录一下。

理论方面：

word2vec是一种基于神经网络的语言模型，是google于2013年提出的一种NLP分析工具，是通过建模得到的，而对于语言模型的理解就是，输入一些文本，通过一个映射函数，得到一个输出文本，这就是语言模型的建立，目标是使得输入输出之间关系密切，能被人理解，那就是好的语言模型，比如输入上下几个单词，通过映射函数，得到的中间的词是合理的，那就是好的语言模型。对应的word2vec有两种结构，即CBOW(连续词袋模型)和skip-gram(跳字模型)，CBOW是根据上下文预测中间词，skip-gram是根据中间词预测上下文词。w两种结构互为翻转，将输入输出转变一下就行，其它没有变化，因此讲里面的一种就行，以CBOW为例。
word2vec的最终目标是得到中间训练的权重，根据这个权重可以对新来的词汇进行向量化表示，在模型训练的时候，是为了将模型训练好，使loss减小，从而将最终的softmax激活输出作为word的词向量表示。CBOW模型训练的基本步骤如下：
1：将词汇用one-hot进行上下文表征作为输入；
2：将输入权重矩阵乘以上下文权重的one-hot向量表示；
3：将上一步得到的向量求和取平均作为隐藏层向量；
4：将输出权重矩阵乘以隐藏层向量；
5：将上面得到的向量做softmax激活处理，就可以作为词向量来输出，并且可以取概率最大的索引作为预测的目标词。
计算过程举例如下：
以上就是CBOW的大致计算过程，实践方面下次再补。