解析wiki数据(带标点,保留格式)

本文介绍了如何下载Wiki数据,特别是kowiki的数据,并利用Python扩展包Wikiextractor进行解析。详细步骤包括更改语种代码、下载xml.bz2文件,通过WikiExtractor进行解析,并设置输出文件夹、文件大小限制、输出数据格式和进程数。最后,文章提到了如何读取解析后的字典格式数据到列表中。
摘要由CSDN通过智能技术生成
Wiki数据数据下载

下载地址 https://dumps.wikimedia.org/kowiki/
下载其他语种数据可更改语种代码,如:kowiki 改为 zhwiki
下载数据文件:kowiki-20201001-pages-articles.xml.bz2

数据解析
  1. 安装python 扩展包 Wikiextractor, pip install wikiextractor
    (github地址:https://github.com/attardi/wikiextractor)
  2. 解析数据,

python -m wikiextractor.WikiExtractor ./kowiki-20201001-pages-articles.xml.bz2 -o ./output_dir -b 10M --json --processes n
-o 输出文件夹
-b 输出文件大小限制,超出后存入新的文件
–json 输出文件数据存储方式
–processes 进程数
其他参数可参见github

读取数据

读取所有解析后的文件,将字典格式的数据读取到一个列表中

import os
import json

wikidata_dir = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值