python训练自己中文语料库_利用Python实现wiki中文语料的word2vec模型构建

最新推荐文章于 2023-02-13 16:13:50 发布

weixin_39892311

最新推荐文章于 2023-02-13 16:13:50 发布

阅读量837

点赞数

文章标签： python训练自己中文语料库

本实例主要介绍的是选取wiki中文语料，并使用python完成Word2vec模型构建的实践过程，不包含原理部分，旨在一步一步的了解自然语言处理的基本方法和步骤。文章主要包含了开发环境准备、数据的获取、数据的预处理、模型构建和模型测试四大内容，对应的是实现模型构建的五个步骤。

一、开发环境准备

1.1 python环境

在python官网下载计算机对应的python版本，本人使用的是Python2.7.13的版本。

1.2 gensim模块

（1）下载模块

Word2vec需要使用第三方gensim模块， gensim模块依赖numpy和scipy两个包，因此需要依次下载对应版本的numpy、scipy、gensim。下载地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/

（2）安装模块

下载完成后，在python安装目录下的Scripts目录中执行cmd命令进行安装。

pip install numpy*.whl

pip install scipy*.whl

pip install gensim.whl

（3）验证模块是否安装成功

输入python命令进入python命令行，分别输入*import numpy; import scipy; import gensim; *没有报错，即安装成功！

二、Wiki数据获取

2.1 Wiki中文数据的下载

到wiki官网下载中文语料，下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件，大小约为1.3G，里面是一个XML文件。

下载地址如下：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

2.2 将XML的Wiki数据转换为text格式

（1）python实现

编写python程序将XML文件转换为text格式，使用到了gensim.corpora中的WikiCorpus函数来处理维基百科的数据。python代码实现如下所示，文件命名为1_process.py。

ec27062bd453

1_process.py--wiki文件转换代码

（2）运行程序文件

在代码文件夹下运行如下cmd命令行，即可得到转换后生成的文件wiki.zh.txt。

D:\PyRoot\iDemo\wiki_zh>python 1_pr

最低0.47元/天解锁文章

weixin_39892311

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python训练自己中文语料库_利用Python实现wiki中文语料的word2vec模型构建

本实例主要介绍的是选取wiki中文语料，并使用python完成Word2vec模型构建的实践过程，不包含原理部分，旨在一步一步的了解自然语言处理的基本方法和步骤。文章主要包含了开发环境准备、数据的获取、数据的预处理、模型构建和模型测试四大内容，对应的是实现模型构建的五个步骤。一、开发环境准备1.1 python环境在python官网下载计算机对应的python版本，本人使用的是Python2....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。