Word2vec理解(一)

微信公众号:深度学习视觉

Word2vec 是 Word Embedding 方式之一,它是将词转化为可计算结构化的向量,从而可以用数学的方式就行解决问题。

Word2vec 的 2 种训练模式:

CBOW(Continuous Bag-of-Words Model),

通过上下文预测某一个字词【发明】;
乔布斯 【发明 】了 Iphone
CBOW使用的是词袋模型,因此这些词都是平等的,也就是不考虑它们和预测词之间的距离大小。


Skip-gram (Continuous Skip-gram Model)

通过某个字词【发明】预测周围部分。
乔布斯 【发明】 了 Iphone

数据集比较小的情况CBOW性能要比Skip-Gram模型好。但是大数据集下CBOW差些。


Word2vec 的 2 种加速方式:

由于无论CBOW还是Skip-Gram最后的输出层都是词汇表大小的神经元个数,对于这么多神经元的计算,需要提出高速的解决方式。
word2vec使用了CBOW与Skip-Gram来训练模型与得到词向量,但是并没有使用传统的DNN模型。最先优化使用的数据结构是用霍夫曼树来代替隐藏层和输出层的神经元,霍夫曼树的叶子节点起到输出层神经元的作用,叶子节点的个数即为词汇表的小大。 而内部节点则起到隐藏层神经元的作用。

  1. Negative Sample
  2. Hierarchical Softmax

Word2vec 的优缺点

  1. Word2vec会考虑上下文,但是属于静态词向量,无法一词多义。
  2. 这个方法的Embedding维度更低。

代码获取embedding

from gensim.models import Word2Vec
from gensim.test.utils import common_texts, get_tmpfile

model = Word2Vec(common_texts, size=100, window=5, min_count=1, workers=4)

# model.save("word2vec.model")     # 训练完后保存, 之后通过字典的方式取出需要的词向量
# model = Word2Vec.load("word2vec.model")
model.wv['computer']  # 词向量保存在wv实例里,得到“compute”的词向量
print("similarity:",model.wv.similarity('system', 'computer'))  # 求词与词之间的相关性
# outPut: similarity:-0.007
print("similarity:",model.wv.similarity('system', 'computer'))  # 求词与词之间的相关性
# outPut: similarity:0.12

# 官网:https://radimrehurek.com/gensim/models/word2vec.html
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值