[NLP] word2vec

最新推荐文章于 2022-04-22 22:37:36 发布

YasinQiu

最新推荐文章于 2022-04-22 22:37:36 发布

阅读量180

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/pangtouyu_qy/article/details/80059947

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

word2vec简介

作用: 将自然语言中的字词转为计算机可以理解的稠密向量.
在word2vec之前曾经用one-hot来表示字词, 比如:

杭州 [0,0,0,0,0,0,0,1,0,……，0,0,0,0,0,0,0]
上海 [0,0,0,0,1,0,0,0,0,……，0,0,0,0,0,0,0]
宁波 [0,0,0,1,0,0,0,0,0,……，0,0,0,0,0,0,0]
北京 [0,0,0,0,0,0,0,0,0,……，1,0,0,0,0,0,0]

但是one-hot有如下问题: (1) 向量之间相互独立. (2) 向量维度过大, 矩阵过于稀疏, 可能造成维度灾难.
word2vec可以解决这些问题: 将one-hot的向量转换为低维度的稠密向量, 这样做可以抽象地表示一个词的”意义”.
word2vec主要包括两个模型: CBOW和skip-gram.

word2vec-CBOW模型

输入: 某一个特定词的上下文相关的词对应的词向量.
输出: 这个特定词的词向量.
这里写图片描述
比如上图中, 我们上下文的取值是4(也就是上图中绿色的八个词, 注意这八个词是平等的), 特定词是learning. 那么神经网络输入层有八个神经元, 输出层神经元的个数等于词汇表的大小, 隐层神经元个数我们可以自己指定.
最后的目标是训练出来这样的神经网络: 输入这八个上下文的词, 最后输出learning的概率最大.

相关概念理解

词向量: 也被称为词嵌入(word embeddings), word2vec就是是一种常见的词向量, 除了word2vec, 比较出名的还有GloVe.
LDA: 是主题模型(Topic Models)的一种计算方法.
语言模型: 在统计自然语言处理中，语言模型指的是计算一个句子的概率模型。
神经概率语言模型: Neural Probabilistic Language Model, 词的表示是向量形式、面向语义的。两个语义相似的词对应的向量也是相似的，具体反映在夹角或距离上。

参考:
[1] 大白话讲解word2vec到底在做些什么
[2] 词向量，LDA，word2vec三者的关系是什么?
[3] word2vec原理推导与代码分析(未看完)
[4] word2vec词向量训练及gensim的使用
[5] word2vec原理(一) CBOW与Skip-Gram模型基础
[6] 自己动手写word2vec (四):CBOW和skip-gram模型

未完待续……

YasinQiu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[NLP] word2vec

word2vec简介作用: 将自然语言中的字词转为计算机可以理解的稠密向量. 在word2vec之前曾经用one-hot来表示字词, 比如:杭州 [0,0,0,0,0,0,0,1,0,……，0,0,0,0,0,0,0]上海 [0,0,0,0,1,0,0,0,0,……，0,0,0,0,0,0,0]宁波 [0,0,0,1,0,0,0,0,0,……，0,0,0,0,0,0,0]北京 ...
复制链接

扫一扫

专栏目录