【word2vec】之 训练模型结果的结构探究 模型改造 python gensim

本文介绍了如何通过gensim库在Python中加载和操作word2vec模型,详细解析了模型的内部结构,包括词汇表、词向量等,并展示了如何将训练好的模型转换为文本格式以便进一步处理。
摘要由CSDN通过智能技术生成
word2vec的安装,应用帖子好多,那如果想在训练的结果,也就是得到的向量上做点儿文章,该如何呢

下面来说说word2vec(python的gensim包)训练得到的模型,以及得到的向量是什么样子的

因为python训练得到的结果是二进制的,说白了就是乱码,现在既然想得到整个结果,该怎么弄呢。

其实好多事情直接看源码就能得到。之前试图找api或者小伙伴的帖子,想看看model的结构是什么样子的,未遂,只好直接自己一点儿点儿看源码。

首先我们假设,已经训练好了一个模型,现在只需要load就行了

model gensim.models.Word2Vec.load('/mymodel_wds_wiki_all')


首先,获得一个词的词向量可以直接通过这样的方式获得

print len(model['中国'])
print type(model['中国'])
print (model['中国'])


得到的结果如下,可见类型是numpy.ndarray,维度是默认的一百维

100

<type 'numpy.ndarray'>

[-1.36747932  1.64107883  2.22578478 -2.02663827  3.4452529   1.86765969 ……]


下面直接看model的代码
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值