使用MediaWiki XML Dump提取文档的完整指南

sjufgwgfhoia

于 2024-10-03 11:06:58 发布

阅读量176

点赞数 1

文章标签： xml python

本文链接：https://blog.csdn.net/sjufgwgfhoia/article/details/142690014

版权

引言

MediaWiki是一种流行的开源平台，用于构建维基网站。为了便于数据迁移、备份或分析，可能需要从MediaWiki提取所有页面内容及其修订版本。本文将指导你如何使用MediaWiki XML Dumps将数据解析为可用的文档格式。

主要内容

1. 什么是MediaWiki XML Dump?

MediaWiki XML Dumps包含所有维基页面的内容及其修订版本，但不包括与网站相关的数据，如用户帐户、图像和编辑日志。这使得它们适合用于内容分析。

2. 如何获取Dump文件?

使用dumpBackup.php: 这是MediaWiki附带的脚本，用于生成XML Dump。
从Special:Statistics页面: 从维基的统计页面下载预生成的Dump文件。

3. 工具简介

mwxml: 来自mediawiki-utilities，用于解析XML Dump。
mwparserfromhell: 来自Earwig，用于解析MediaWiki的wikicode。

代码示例

以下是如何使用这些工具将XML Dump解析为文档格式的示例：

# 安装必要的依赖
%pip install --upgrade --quiet git+https://github.com/mediawiki-utilities/python-mwtypes@updates_schema_0.11
%pip install --upgrade --quiet git+https://github.com/gdedrouas/python-mwxml@xml_format_0.11
%pip install --upgrade --quiet mwparserfromhell

from langchain_community.document_loaders import MWDumpLoader

# 使用API代理服务提高访问稳定性
loader = MWDumpLoader(
    file_path="example_data/testmw_pages_current.xml",
    encoding="utf8",
    skip_redirects=True,  # 跳过重定向页面
    stop_on_error=False   # 跳过解析错误页面
)

documents = loader.load()
print(f"You have {len(documents)} document(s) in your data ")