使用gensim训练word2vec词向量

最新推荐文章于 2022-02-25 11:09:17 发布

风吹草地现牛羊的马

最新推荐文章于 2022-02-25 11:09:17 发布

阅读量495

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mch2869253130/article/details/103886372

版权

NLP 专栏收录该内容

42 篇文章 4 订阅

订阅专栏

from gensim.models import Word2Vec
import pickle
import multiprocessing


class MySentences(object):
    def __init__(self, filename):
        with open(filename, 'rb') as f:
            self.docs_set = pickle.load(f)

    def __iter__(self):
        for doc in self.docs_set:
            for sent in doc:
                yield sent


if __name__ == "__main__":

    file_name = './data/docs_set1.pkl'   # 已经分好词的文档集合 按照文档集，文档，句子格式存为3维的list

    print('start training!')
    sentences = MySentences(file_name)
    model = Word2Vec(sentences, size=50, window=6, min_count=2, workers=(multiprocessing.cpu_count()-4), hs=1, sg=1, negative=10)

    model.save('./models/')  # 保存训练好的模型
    model.wv.save_word2vec_format('./data/docs_features.txt', binary=True)  # 将训练好的word embedding向量存入outp2文件中
    # 从outp2文件中读取embedding向量时用gensim的KeyedVectors

    print("Done!")

参考：

使用维基百科英文语料训练word2vec.model

风吹草地现牛羊的马

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
使用gensim训练word2vec词向量

使用维基百科英文语料训练word2vec.model
复制链接

扫一扫

专栏目录

风吹草地现牛羊的马

博客等级

码龄8年

378
原创

773
点赞

2464
收藏

233
粉丝

关注

私信

分类专栏

pytorch 38篇
信息抽取 3篇
生成模型 5篇
变分贝叶斯系列 22篇
语言模型 13篇
知识图谱 2篇
主题模型（topic model） 11篇
环境配置 5篇
优化算法 3篇
GCN 3篇
web开发 1篇
ACM 117篇
机器学习 97篇
tensorflow 35篇
CNN 10篇
python 27篇
CSDN
LSTM 5篇
RNN 6篇
Linux 15篇
NLP 42篇

最新评论

pytorch 计算图
m0_56066451: 写错了一部分内容
变分自编码器ELBO的求解---随机梯度变分估计（SGVB）
0.409431: 请问一下这里的参考文献是哪里的，为什么二者KL散度那边理论上应该是上式第一项的期望计算，怎么变成了一个积分，同时这个积分也和前面公式能够推导到的不一样？
GMVAE（GAUSSIAN MIXTURE VARIATIONAL AUTOENCODERS）高斯混合变分自编码器公式推导
qq_33790832: 这个是哪篇论文的？
自动文摘评测方法：Rouge-1、Rouge-2、Rouge-L、Rouge-S
花夫人rho: 引用「the cat was found under the bed」确定没算错吗？人工标注为： “ the tiny little cat was found under the big funny bed” 机器预测为：the cat was found under the bed。则Rec=机器预测正确数/人工标注数=7/11。而你写成了精确度是7/11。 prec=机器预测正确数/机器输出有标签总数=7/7=1。
nn.TransformerEncoderLayer中的src_mask，src_key_padding_mask解析
#苦行僧: 说的并不对

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。