最近在做知识图谱相关工作,源数据主要来自百度百科,互动百科,中文维基百科等。其中中文维基百科提供数据库下载,下文主要讨论如何处理Wiki数据。
1. 中文维基数据下载
zhwiki-latest-pages-articles.xml.bz2
词条正文
zhwiki-latest-redirect.sql
词条重定向(同义词)
zhwiki-latest-pagelinks.sql
词条页面内容外链
zhwiki-latest-page.sql
词条标题及摘要
zhwiki-latest-categorylinks.sql
词条开放分类链接
2. 数据的抽取
Gensim是一个相当专业的主题模型Python工具包,提供了wiki数据的抽取处理类WikiCorpus,能对下载的数据(*articles.xml.bz2)进行抽取处理,得到纯净的文本语料。
classWikiCorpus(TextCorpus):"""Treat a wikipedia articles dump (\*articles.xml.bz2) as a (read-only) corpus.
The documents are extracted on-the-fly, so that the whole (massive) dump
can stay compressed on disk.
>>> wiki = WikiCorpus('enwiki-20100622-pages-articles.xml.bz2') # create word->word_id mapping, takes almost 8h
>>> Mm