使用维基百科中文语料进行word2vec训练–远程到旧电脑notebook上进行计算

最新推荐文章于 2024-08-09 17:10:42 发布

weixin_41613259

最新推荐文章于 2024-08-09 17:10:42 发布

阅读量432

点赞数

分类专栏：机器学习算法文章标签：自然语言处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41613259/article/details/105777068

版权

使用维基百科中文语料进行word2vec训练–远程到旧电脑notebook上进行计算

家里有一台还不错i7的CPU的旧电脑，但是不用了，然后我装了deepin当计算器用。最近也正在学Word2vec，所以想下载一个中文词库然后训练下。*

1.维基百科中文语料下载

这里提供词库
通过词库下载中文语料这里我选择的是zhwiki-20200420-pages-articles1.xml-p1p162886。
词库提取代代码网址https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py

接下来通过上面的转换代码对文本进行提取。首先将上面的代码clone下来。

然后找到WikiExtractor.py运行

python WikiExtractor.py -b 500M -o wiki_00 zhwiki-20200420-pages-articles1.xml-p1p162886.bz2

最终得到文件

打开看一下

在这里插入图片描述

2.linux系统安装Opencc、用Opencc对语料进行繁体转简体

首先安装cmake和git(已经安装过的就不用了，我前面已经装过了)

sudo apt-get install cmake
sudo apt-get install git

然后就开始了各种报bug！！！千万不要慌

git clone https://github.com/BYVoid/OpenCC
cd OpenCC

然后make报错了。。。
在这里插入图片描述

百度查查，有人说

sudo apt-get update
sudo apt-get install -y build-essential

然后再make，又错了。。。

QQ截图20200426113404.png
然后安装doxygen

sudo apt-get install doxygen

然后再make舒爽！可以了

然后继续make install

然后ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2

再查看一手安装opencc --version

QQ截图20200426114513.png

找个东西试一试！！在这里插入图片描述

转换成功，然后就是对数据进行转换了

opencc -i wiki_00 -o zhwiki_jian_zh.txt -c t2s.json

这里将转换的结果放到 zhwiki_jian_zh.txt里面

看看结果
在这里插入图片描述

然后就可以开始我们的训练了。

因为想用旧电脑跑数据（可以把旧电脑放阳台上，这样我在屋里就听不到呼呼的风扇而且阳台散热还好！哈哈哈）

3.远程连接旧电脑linux 的 jupyter notebook

这里上网搜了好多，有点方法不管用，所以这里放一个对我管用的方法

首先进入ipython

from notebook.auth import passwd 
passwd

最低0.47元/天解锁文章

weixin_41613259

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。