使用维基百科中文语料进行word2vec训练–远程到旧电脑notebook上进行计算


家里有一台还不错i7的CPU的旧电脑,但是不用了,然后我装了deepin当计算器用。最近也正在学Word2vec,所以想下载一个中文词库然后训练下。*

1.维基百科中文语料下载

这里提供词库
通过词库下载中文语料这里我选择的是zhwiki-20200420-pages-articles1.xml-p1p162886
词库提取代代码网址https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py

接下来通过上面的转换代码对文本进行提取。首先将上面的代码clone下来。

然后找到WikiExtractor.py运行

python WikiExtractor.py -b 500M -o wiki_00 zhwiki-20200420-pages-articles1.xml-p1p162886.bz2

最终得到文件
最终得到文件
打开看一下

在这里插入图片描述

2.linux系统安装Opencc、用Opencc对语料进行繁体转简体

首先安装cmake和git(已经安装过的就不用了,我前面已经装过了)

sudo apt-get install cmake
sudo apt-get install git

然后就开始了各种报bug!!!千万不要慌

git clone https://github.com/BYVoid/OpenCC
cd OpenCC

然后make报错了。。。
在这里插入图片描述

百度查查,有人说

sudo apt-get update
sudo apt-get install -y build-essential

然后再make,又错了。。。

QQ截图20200426113404.png
然后安装doxygen

sudo apt-get install doxygen

然后再make舒爽!可以了

然后继续make install

然后ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2

再查看一手安装opencc --version

QQ截图20200426114513.png

找个东西试一试!!在这里插入图片描述

转换成功,然后就是对数据进行转换了

opencc -i wiki_00 -o zhwiki_jian_zh.txt -c t2s.json

这里将转换的结果放到 zhwiki_jian_zh.txt里面

看看结果
在这里插入图片描述

然后就可以开始我们的训练了。

因为想用旧电脑跑数据(可以把旧电脑放阳台上,这样我在屋里就听不到呼呼的风扇而且阳台散热还好!哈哈哈)

3.远程连接旧电脑linux 的 jupyter notebook

这里上网搜了好多,有点方法不管用,所以这里放一个对我管用的方法

首先进入ipython

from notebook.auth import passwd 
passwd
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值