gensim的word2vector测试_基于中文wiki语料

1.安装gensim  

pip install gensim
会报一个问题,可以直接忽略。

2.下载wiki语料

wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
3.用 WikiExtractor抽取正文文本

nohup python WikiExtractor.py -cb 1000M -o extracted zhwiki-latest-pages-articles.xml.bz2

nohup.out



运行时长:15点08分到16点,约1h

看一下运行结果:


4.繁简体转换

这个opencc安装教程很强大!~

安装Opencc,方法如下:

$git clone https://github.com/BYVoid/OpenCC.git
$cd OpenCC
$make
$make install
编译报错,升级gcc:【具体参考 gcc版本升级

wget http: //ftp.gnu.org/gnu/gcc/gcc-4.8.0/gcc-4.8.0.tar.bz2<pre name="code" class="python">tar -jxvf  gcc-4.8.0.tar.bz2<pre name="code" class="python">cd gcc-4.8.0
./contrib/download_prerequisites
cd ..
mkdir gcc-build-4.8.0
cd  gcc-build-4.8.0
../gcc-4.8.0/configure --enable-checking=release --enable-languages=c,c++ --disable-multilib
make -j4
sudo make install

最后用新版替换旧版

update-alternatives --install /usr/bin/gcc gcc /usr/local/bin/i686-pc-linux-gnu-gcc 40

事实是,失败了(笑着活下去...)

发现了这个升级教程升级gcc!之后觉得刚才的自己蠢蠢的,升级成功!


重新编译安装OpenCC!~

还是报错(笑着活下去+1)...

libstdc++的问题,于是在/usr/local/lib64中找到了高版本的libstdc++.so.6.0.18文件,将它复制并链接,代码如下:

sudo cp /usr/local/lib64/libstdc++.so.6.0.20 /usr/lib64/
$ sudo ln -s -f /usr/lib64/libstdc++.so.6.0.20 /usr/lib64/libstdc++.so.6
结果还是报错:

opencc: error while loading shared libraries: libopencc.so.2: cannot open shared object file: No such file or directory
于是去find这个文件,并建立链接文件:

sudo find / -name libopencc.so.2
sudo ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
这下终于ok了,感动天感动地2333

【总结:这次装软件配环境心态比较好,比较细心耐心,恩!~】

运行example:



恩,下面就开始处理wiki语料的繁简体转换了:

参考opencc官方文档




 
 




  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值