前期准备
1、语料:
维基中文语料
(下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2)
搜狗实验室语料
(下载地址:http://www.sogou.com/labs/resource/ca.php)
2、所用工具:
(1)python版gensim安装(pip install gensim 或者 conda install gensim)
(2)Opencc (链接:https://pan.baidu.com/s/1Rg759i1IDigZw9QcqZTXHg 提取码:2jp5 )
(3)结巴分词 (pip install jieba 或者 前往https://pypi.org/project/jieba/#files 手动下载安装)
实验过程
1、语料预处理(传入参数为 “处理预料文件路径名字” + “空格” + “处理后的路径文件名”)
python process.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text
2、简体转换(这一过程本人在windows上完成的)
可以看到里面有一些繁体字,所以为了方便统一,我们需要将其中的繁体字转换为简体,这里就要用到前面所说的opencc, 安装的时候最好放在C盘根目录下面
1:解压之后将OpenCC下的bin目录添加到系统环境变量中。
2:cmd下进入opencc软件根目录下的 bin 目录
(例如:cd C:\opencc-1.0.4\bin)
3:执行命令:
opencc -i 待转换的文件路径及名称 -o 输出的文件路径及名称 -c 配置文件路径名称
我的:opencc -i C:\Users\Administrator\PycharmProjects\chenhong\WORD2VEC\data\wiki.zh.text -o C:\Users\Administrator\PycharmProjects\chenhong\WORD2VEC\data\wiki.zh.text.jian.txt -c C:\opencc-1.0.4\share\opencc\t2s.json
其中,软件自带的配置文件位于根目录下的 share 目录的 opencc 目录 (例如:C:\opencc-1.0.4\share\opencc)
3、语料分词
python fenci_model.py
4、模型的训练
python train_word2vec_model.py wiki.zh.seg.text.jian.txt wiki.zh.text.model wiki.zh.text.vector
三个代码链接
注释
wiki.zh.text 处理过的维基中文语料
wiki.zh.text.jian.txt opencc繁体化简体后的语料
wiki.zh.seg.text.jian.txt jieba分词后的语料