微信公众号:深度学习视觉
Word2vec 是 Word Embedding 方式之一,它是将词转化为可计算的结构化的向量,从而可以用数学的方式就行解决问题。
Word2vec 的 2 种训练模式:
CBOW(Continuous Bag-of-Words Model),
通过上下文预测某一个字词【发明】;
乔布斯 【发明 】了 Iphone。
CBOW使用的是词袋模型,因此这些词都是平等的,也就是不考虑它们和预测词之间的距离大小。
Skip-gram (Continuous Skip-gram Model)
通过某个字词【发明】预测周围部分。
乔布斯 【发明】 了 Iphone。
数据集比较小的情况CBOW性能要比Skip-Gram模型好。但是大数据集下CBOW差些。
Word2vec 的 2 种加速方式:
由于无论CBOW还是Skip-Gram最后的输出层都是词汇表大小的神经元个数,对于这么多神经元的计算,需要提出高速的解决方式。
word2vec使用了CBOW与Skip-Gram来训练模型与得到词向量,但是并没有使用传统的DNN模型。最先优化使用的数据结构是用霍夫曼树来代替隐藏层和输出层的神经元,霍夫曼树的叶子节点起到输出层神经元的作用,叶子节点的个数即为词汇表的小大。 而内部节点则起到隐藏层神经元的作用。
- Negative Sample
- Hierarchical Softmax
Word2vec 的优缺点
- Word2vec会考虑上下文,但是属于静态词向量,无法一词多义。
- 这个方法的Embedding维度更低。
代码获取embedding
from gensim.models import Word2Vec
from gensim.test.utils import common_texts, get_tmpfile
model = Word2Vec(common_texts, size=100, window=5, min_count=1, workers=4)
# model.save("word2vec.model") # 训练完后保存, 之后通过字典的方式取出需要的词向量
# model = Word2Vec.load("word2vec.model")
model.wv['computer'] # 词向量保存在wv实例里,得到“compute”的词向量
print("similarity:",model.wv.similarity('system', 'computer')) # 求词与词之间的相关性
# outPut: similarity:-0.007
print("similarity:",model.wv.similarity('system', 'computer')) # 求词与词之间的相关性
# outPut: similarity:0.12
# 官网:https://radimrehurek.com/gensim/models/word2vec.html