最开始需要新建一个conda环境
conda create -n word2vec python=3.8
conda activate word2vec
然后安装一下所需要的库
pip install numpy
pip install scipy
pip install gensim
pip install jieba
首先下载一下数据集zhwiki-20230701-pages-articles.xml.bz2,为了方便后续操作,这里需要把他转成txt格式的
以下是转化的文件transform_to_txt.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 修改后的代码如下:
import logging
import os.path
import sys
from gensim.corpora import WikiCorpus
if __name__ == '__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
logging.root.setLevel(level=logging.INFO)
logger.info("running %s" % ' '.join(sys.argv))
# check and process input arguments
if len(sys.argv) < 3:
print(globals()['__doc__'] % locals())
sys.exit(1)
inp, outp = sys.argv[1:3]
space = ""
i = 0
output = open(outp, 'w', encoding='utf-8')
# wiki = WikiCorpus(inp, lemmatize=False, dictionary={})
wiki = WikiCorpus(inp, dictionary={
})
for</

文章描述了如何使用conda创建环境,安装必要的库,如numpy、scipy、gensim和jieba。接着,它详细讲解了从下载的xml.bz2数据集转换为txt格式,以及将繁体字转为简体字的过程。然后,利用jieba进行分词,最后使用gensim的Word2Vec进行模型训练。整个流程包括数据预处理、模型构建和测试。
最低0.47元/天 解锁文章
3236

被折叠的 条评论
为什么被折叠?



