用gensim库训练word2vec踩过的坑

最新推荐文章于 2024-06-26 23:32:31 发布

HeReCJJ

最新推荐文章于 2024-06-26 23:32:31 发布

阅读量1w

点赞数 2

分类专栏：词向量文章标签： genism word2vec

本文链接：https://blog.csdn.net/HeReCJJ/article/details/79734304

版权

本文档记录了使用gensim库训练word2vec模型时遇到的问题及解决方法，包括text8数据集的正确加载方式、Python3编码问题以及wiki语料库的处理和训练过程。

摘要由CSDN通过智能技术生成

最近在进行毕设，也用tensorflow写了一个skip-gram算法的embedding

由于是论文复现，需要的embedding matrix（skip-gram，dimension = 400，negative samples =10）和网上现有的训练好的词向量不太一样，于是开始尝试自己训练

整个过程分为两部分

1.训练demo： text8.zip

先贴代码

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from gensim.models import word2vec

import logging

# 主程序

logging.basicConfig(

format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

sentences = word2vec.Text8Corpus(r

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注