word2vec训练维基中文语料

前期准备

1、语料:
维基中文语料
(下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2)
搜狗实验室语料
(下载地址:http://www.sogou.com/labs/resource/ca.php)

2、所用工具:
(1)python版gensim安装(pip install gensim 或者 conda install gensim)
(2)Opencc (链接:https://pan.baidu.com/s/1Rg759i1IDigZw9QcqZTXHg 提取码:2jp5 )
(3)结巴分词 (pip install jieba 或者 前往https://pypi.org/project/jieba/#files 手动下载安装)

实验过程

1、语料预处理(传入参数为 “处理预料文件路径名字” + “空格” + “处理后的路径文件名”)
python process.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

2、简体转换(这一过程本人在windows上完成的)
可以看到里面有一些繁体字,所以为了方便统一,我们需要将其中的繁体字转换为简体,这里就要用到前面所说的opencc, 安装的时候最好放在C盘根目录下面
1:解压之后将OpenCC下的bin目录添加到系统环境变量中。
2:cmd下进入opencc软件根目录下的 bin 目录
(例如:cd C:\opencc-1.0.4\bin)
3:执行命令:
opencc -i 待转换的文件路径及名称 -o 输出的文件路径及名称 -c 配置文件路径名称
我的:opencc -i C:\Users\Administrator\PycharmProjects\chenhong\WORD2VEC\data\wiki.zh.text -o C:\Users\Administrator\PycharmProjects\chenhong\WORD2VEC\data\wiki.zh.text.jian.txt -c C:\opencc-1.0.4\share\opencc\t2s.json
其中,软件自带的配置文件位于根目录下的 share 目录的 opencc 目录 (例如:C:\opencc-1.0.4\share\opencc)

3、语料分词
python fenci_model.py

4、模型的训练
python train_word2vec_model.py wiki.zh.seg.text.jian.txt wiki.zh.text.model wiki.zh.text.vector

三个代码链接

注释
wiki.zh.text 处理过的维基中文语料
wiki.zh.text.jian.txt opencc繁体化简体后的语料
wiki.zh.seg.text.jian.txt jieba分词后的语料

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值