使用维基百科中文语料进行word2vec训练–远程到旧电脑notebook上进行计算
家里有一台还不错i7的CPU的旧电脑,但是不用了,然后我装了deepin当计算器用。最近也正在学Word2vec,所以想下载一个中文词库然后训练下。*
1.维基百科中文语料下载
这里提供词库
通过词库下载中文语料这里我选择的是zhwiki-20200420-pages-articles1.xml-p1p162886
。
词库提取代代码网址https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py
接下来通过上面的转换代码对文本进行提取。首先将上面的代码clone下来。
然后找到WikiExtractor.py运行
python WikiExtractor.py -b 500M -o wiki_00 zhwiki-20200420-pages-articles1.xml-p1p162886.bz2
最终得到文件
打开看一下
2.linux系统安装Opencc、用Opencc对语料进行繁体转简体
首先安装cmake和git(已经安装过的就不用了,我前面已经装过了)
sudo apt-get install cmake
sudo apt-get install git
然后就开始了各种报bug!!!千万不要慌
git clone https://github.com/BYVoid/OpenCC
cd OpenCC
然后make
报错了。。。
百度查查,有人说
sudo apt-get update
sudo apt-get install -y build-essential
然后再make
,又错了。。。
然后安装doxygen
sudo apt-get install doxygen
然后再make
舒爽!可以了
然后继续make install
然后ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
再查看一手安装opencc --version
找个东西试一试!!
转换成功,然后就是对数据进行转换了
opencc -i wiki_00 -o zhwiki_jian_zh.txt -c t2s.json
这里将转换的结果放到 zhwiki_jian_zh.txt里面
看看结果
然后就可以开始我们的训练了。
因为想用旧电脑跑数据(可以把旧电脑放阳台上,这样我在屋里就听不到呼呼的风扇而且阳台散热还好!哈哈哈)
3.远程连接旧电脑linux 的 jupyter notebook
这里上网搜了好多,有点方法不管用,所以这里放一个对我管用的方法
首先进入ipython
from notebook.auth import passwd
passwd