本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型构建的实践过程,不包含原理部分,旨在一步一步的了解自然语言处理的基本方法和步骤。文章主要包含了开发环境准备、数据的获取、数据的预处理、模型构建和模型测试四大内容,对应的是实现模型构建的五个步骤。
一、 开发环境准备
1.1 python环境
在python官网下载计算机对应的python版本,本人使用的是Python2.7.13的版本。
1.2 gensim模块
(1)下载模块
Word2vec需要使用第三方gensim模块, gensim模块依赖numpy和scipy两个包,因此需要依次下载对应版本的numpy、scipy、gensim。下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/
(2)安装模块
下载完成后,在python安装目录下的Scripts目录中执行cmd命令进行安装。
pip install numpy*.whl
pip install scipy*.whl
pip install gensim.whl
(3)验证模块是否安装成功
输入python命令进入python命令行,分别输入*import numpy; import scipy; import gensim; *没有报错,即安装成功!
二、Wiki数据获取
2.1 Wiki中文数据的下载
到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,大小约为1.3G,里面是一个XML文件。
下载地址如下:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
2.2 将XML的Wiki数据转换为text格式
(1)python实现
编写python程序将XML文件转换为text格式,使用到了gensim.corpora中的WikiCorpus函数来处理维基百科的数据。python代码实现如下所示,文件命名为1_process.py。
1_process.py--wiki文件转换代码
(2)运行程序文件
在代码文件夹下运行如下cmd命令行,即可得到转换后生成的文件wiki.zh.txt。
D:\PyRoot\iDemo\wiki_zh>python 1_process.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.txt
(3)得到运行结果
2017-04-18 09:24:28,901: INFO: running 1_process.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.