word2vec训练维基中文语料

最新推荐文章于 2023-01-27 11:02:23 发布

51号公路

最新推荐文章于 2023-01-27 11:02:23 发布

阅读量376

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/SS51SS/article/details/105516743

版权

前期准备

1、语料：
维基中文语料
(下载地址：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2）
搜狗实验室语料
(下载地址：http://www.sogou.com/labs/resource/ca.php)

2、所用工具：
（1）python版gensim安装（pip install gensim 或者 conda install gensim）
（2）Opencc （链接：https://pan.baidu.com/s/1Rg759i1IDigZw9QcqZTXHg 提取码：2jp5 ）
（3）结巴分词（pip install jieba 或者前往https://pypi.org/project/jieba/#files 手动下载安装）

实验过程

1、语料预处理（传入参数为 “处理预料文件路径名字” + “空格” + “处理后的路径文件名”）
python process.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

2、简体转换(这一过程本人在windows上完成的)
可以看到里面有一些繁体字，所以为了方便统一，我们需要将其中的繁体字转换为简体，这里就要用到前面所说的opencc, 安装的时候最好放在C盘根目录下面
1：解压之后将OpenCC下的bin目录添加到系统环境变量中。
2：cmd下进入opencc软件根目录下的 bin 目录
（例如：cd C:\opencc-1.0.4\bin）
3：执行命令：
opencc -i 待转换的文件路径及名称 -o 输出的文件路径及名称 -c 配置文件路径名称
我的：opencc -i C:\Users\Administrator\PycharmProjects\chenhong\WORD2VEC\data\wiki.zh.text -o C:\Users\Administrator\PycharmProjects\chenhong\WORD2VEC\data\wiki.zh.text.jian.txt -c C:\opencc-1.0.4\share\opencc\t2s.json
其中，软件自带的配置文件位于根目录下的 share 目录的 opencc 目录（例如：C:\opencc-1.0.4\share\opencc）

3、语料分词
python fenci_model.py

4、模型的训练
python train_word2vec_model.py wiki.zh.seg.text.jian.txt wiki.zh.text.model wiki.zh.text.vector