Wiki数据数据下载
下载地址 https://dumps.wikimedia.org/kowiki/
下载其他语种数据可更改语种代码,如:kowiki 改为 zhwiki
下载数据文件:kowiki-20201001-pages-articles.xml.bz2
数据解析
- 安装python 扩展包 Wikiextractor, pip install wikiextractor
(github地址:https://github.com/attardi/wikiextractor) - 解析数据,
python -m wikiextractor.WikiExtractor ./kowiki-20201001-pages-articles.xml.bz2 -o ./output_dir -b 10M --json --processes n
-o 输出文件夹
-b 输出文件大小限制,超出后存入新的文件
–json 输出文件数据存储方式
–processes 进程数
其他参数可参见github
读取数据
读取所有解析后的文件,将字典格式的数据读取到一个列表中
import os
import json
wikidata_dir =