word2vec工具实战（使用gensim）

原创

已于 2023-07-05 15:08:20 修改 · 1.7k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#word2vec #自然语言处理

于 2023-07-05 10:33:31 首次发布

文章描述了如何使用conda创建环境，安装必要的库，如numpy、scipy、gensim和jieba。接着，它详细讲解了从下载的xml.bz2数据集转换为txt格式，以及将繁体字转为简体字的过程。然后，利用jieba进行分词，最后使用gensim的Word2Vec进行模型训练。整个流程包括数据预处理、模型构建和测试。

最开始需要新建一个conda环境

conda create -n word2vec python=3.8
conda activate word2vec

然后安装一下所需要的库

pip install numpy
pip install scipy
pip install gensim
pip install jieba

首先下载一下数据集zhwiki-20230701-pages-articles.xml.bz2，为了方便后续操作，这里需要把他转成txt格式的

以下是转化的文件transform_to_txt.py

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 修改后的代码如下：
import logging
import os.path
import sys

from gensim.corpora import WikiCorpus

if __name__ == '__main__':

    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)
    logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))
    # check and process input arguments
    if len(sys.argv) < 3:
        print(globals()['__doc__'] % locals())
        sys.exit(1)
    inp, outp = sys.argv[1:3]
    space = ""
    i = 0
    output = open(outp, 'w', encoding='utf-8')
    # wiki = WikiCorpus(inp, lemmatize=False, dictionary={})
    wiki = WikiCorpus(inp, dictionary={
   
   })
    for</