本文主要记录使用wikiextractor工具处理enwiki数据集。
数据集下载
处理英文维基百科的文章,数据集在数据链接内找 enwiki: Dump complete,找到后点击进入新页面,找到 enwiki-最近更新的日期-pages-articles.xml.bz2 下载,20200520更新的为16.1GB。注意,下载后不需要解压,wikiextractor可以直接处理。
wikiextractor的使用
工具链接:https://github.com/attardi/wikiextractor
链接中有详细的用法说明。
实际上,处理的时候不需要
python setup.py install
可以直接使用,以下面为例:
python WikiExtractor.py -b 100M -o wikidata --json -l enwiki-20100312-pages-articles.xml.bz2
- -b [大小]:按多大输出文件
- -o [位置]:输出到那里
- --json:以json格式输出,但实际上不是json文件,文件格式是没有的
- -l:页面内的超链接,或者--links,输出的格式为 <a href="***">***</a>
还有更多的设置,参见工具内的说明即可。