目录
参考链接
word2vec实战:获取和预处理中文维基百科(Wikipedia)语料库,并训练成word2vec模型
nlp语料库相关资源:A curated list of resources for NLP (Natural Language Processing) for Chinese
一、Wiki百科资料下载
可从这个链接自己选取所需要的下载Wikipedia Dump
本范例所使用的为 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
二、WikiExtractor
WikiExtractor 的git https://github.com/attardi/wikiextractor
本范例用 conda 下的python 3.6
pip install wikiextractor
新建文件夹extracted用于存放提取后的资料,
zhwiki-latest-pages-articles.xml.bz2 是(一)中下载的文件
提取文件,filename 替换成(一)下载的文件
python -m wikiextractor.WikiExtractor filename -b 1024M -o extracted
例如:filename = zhwiki-latest-pages-articles.xml.bz2
提取完成后的资料