wikiextractor使用举例

本文主要记录使用wikiextractor工具处理enwiki数据集。

数据集下载

处理英文维基百科的文章,数据集在数据链接内找 enwiki: Dump complete,找到后点击进入新页面,找到 enwiki-最近更新的日期-pages-articles.xml.bz2 下载,20200520更新的为16.1GB。注意,下载后不需要解压,wikiextractor可以直接处理。

wikiextractor的使用

工具链接:https://github.com/attardi/wikiextractor

链接中有详细的用法说明。

实际上,处理的时候不需要

python setup.py install

 可以直接使用,以下面为例:

python WikiExtractor.py -b 100M -o wikidata --json -l enwiki-20100312-pages-articles.xml.bz2
  • -b [大小]:按多大输出文件
  • -o [位置]:输出到那里
  • --json:以json格式输出,但实际上不是json文件,文件格式是没有的
  • -l:页面内的超链接,或者--links,输出的格式为 <a href="***">***</a>

还有更多的设置,参见工具内的说明即可。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值