Word2Vec demo,语料库处理以及word2vec训练 (Win10环境)

目录

参考链接

一、Wiki百科资料下载

二、WikiExtractor

三、繁简体转换 opencc

四、符号处理

五、中文分词

六、合并资料

七、训练word2vec模型


参考链接

word2vec实战:获取和预处理中文维基百科(Wikipedia)语料库,并训练成word2vec模型

nlp语料库相关资源:A curated list of resources for NLP (Natural Language Processing) for Chinese

windows使用opencc中文简体和繁体互转

使用中文维基百科语料库训练一个word2vec模型


一、Wiki百科资料下载

可从这个链接自己选取所需要的下载Wikipedia Dump

本范例所使用的为 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 


二、WikiExtractor

WikiExtractor 的git https://github.com/attardi/wikiextractor

本范例用 conda 下的python 3.6 

pip install wikiextractor 

新建文件夹extracted用于存放提取后的资料,

zhwiki-latest-pages-articles.xml.bz2 是(一)中下载的文件

提取文件,filename 替换成(一)下载的文件

python -m wikiextractor.WikiExtractor filename -b 1024M -o extracted

例如:filename = zhwiki-latest-pages-articles.xml.bz2

提取完成后的资料

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值