wikisql 数据集解释_Wiki语料处理

最新推荐文章于 2024-05-18 18:02:58 发布

CodeWizardess

最新推荐文章于 2024-05-18 18:02:58 发布

阅读量888

点赞数

文章标签： wikisql 数据集解释

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42130889/article/details/112812854

版权

本文介绍了如何处理中文维基百科数据，包括下载、使用Gensim的WikiCorpus进行文本抽取，以及使用OpenCC进行繁体到简体转换、jieba进行分词和iconv进行编码转换。通过这些步骤，得到了已分词的中文语料。

摘要由CSDN通过智能技术生成

最近在做知识图谱相关工作，源数据主要来自百度百科，互动百科，中文维基百科等。其中中文维基百科提供数据库下载，下文主要讨论如何处理Wiki数据。

1. 中文维基数据下载

zhwiki-latest-pages-articles.xml.bz2

词条正文

zhwiki-latest-redirect.sql

词条重定向(同义词)

zhwiki-latest-pagelinks.sql

词条页面内容外链

zhwiki-latest-page.sql

词条标题及摘要

zhwiki-latest-categorylinks.sql

词条开放分类链接

2. 数据的抽取

Gensim是一个相当专业的主题模型Python工具包，提供了wiki数据的抽取处理类WikiCorpus，能对下载的数据(*articles.xml.bz2)进行抽取处理，得到纯净的文本语料。

classWikiCorpus(TextCorpus):"""Treat a wikipedia articles dump (\*articles.xml.bz2) as a (read-only) corpus.

The documents are extracted on-the-fly, so that the whole (massive) dump

can stay compressed on disk.

>>> wiki = WikiCorpus('enwiki-20100622-pages-articles.xml.bz2') # create word->word_id mapping, takes almost 8h

>>> Mm

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
wikisql 数据集解释_Wiki语料处理

最近在做知识图谱相关工作，源数据主要来自百度百科，互动百科，中文维基百科等。其中中文维基百科提供数据库下载，下文主要讨论如何处理Wiki数据。1. 中文维基数据下载zhwiki-latest-pages-articles.xml.bz2词条正文zhwiki-latest-redirect.sql词条重定向(同义词)zhwiki-latest-pagelinks.sql词条页面内容外链zhwiki-...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。