wikisql 数据集解释_Wiki语料处理

本文介绍了如何处理中文维基百科数据,包括下载、使用Gensim的WikiCorpus进行文本抽取,以及使用OpenCC进行繁体到简体转换、jieba进行分词和iconv进行编码转换。通过这些步骤,得到了已分词的中文语料。
摘要由CSDN通过智能技术生成

最近在做知识图谱相关工作,源数据主要来自百度百科,互动百科,中文维基百科等。其中中文维基百科提供数据库下载,下文主要讨论如何处理Wiki数据。

1. 中文维基数据下载

zhwiki-latest-pages-articles.xml.bz2

词条正文

zhwiki-latest-redirect.sql

词条重定向(同义词)

zhwiki-latest-pagelinks.sql

词条页面内容外链

zhwiki-latest-page.sql

词条标题及摘要

zhwiki-latest-categorylinks.sql

词条开放分类链接

2. 数据的抽取

Gensim是一个相当专业的主题模型Python工具包,提供了wiki数据的抽取处理类WikiCorpus,能对下载的数据(*articles.xml.bz2)进行抽取处理,得到纯净的文本语料。

classWikiCorpus(TextCorpus):"""Treat a wikipedia articles dump (\*articles.xml.bz2) as a (read-only) corpus.

The documents are extracted on-the-fly, so that the whole (massive) dump

can stay compressed on disk.

>>> wiki = WikiCorpus('enwiki-20100622-pages-articles.xml.bz2') # create word->word_id mapping, takes almost 8h

>>> Mm

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值