wikisql 数据集解释_【wiki维基百科中文数据集】抽取wiki数据集——实操

最新推荐文章于 2024-05-05 22:22:16 发布

weixin_39709674

最新推荐文章于 2024-05-05 22:22:16 发布

阅读量576

点赞数

文章标签： wikisql 数据集解释

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39709674/article/details/111847635

版权

参考

一、下载数据集

到【https://dumps.wikimedia.org/zhwiki/latest/】下载最新的中文wiki百科数据集【zhwiki-latest-pages-articles.xml.bz2】。

也就是【https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2】

二、提取原始语料库数据(新词汇：语料库(corpus —— corpora【复数】))

(一)节点信息

据说xml节点信息类似如下：(待验证)

(二)抽取数据

【抽取数据工具】：使用Wikipedia的extractor抽取工具。

# 克隆下载wikipedia的Extractor工具

git clone https://github.com/attardi/wikiextractor.git wikiextractor

# 进入提取工具目录。我的该目录和语料文件.xml.bz2在同一个目录下

cd wikiextractor

# 提示了权限问题记得要在前面sudo一下

python setup.py install

# 注意这里.xml.bz2文件在.py文件的上一级需要对.xml.bz2文件的位置改动改为相对路径即 ../xxxx.xml.bz2

python WikiExtractor.py-b 1024M -o ../extracted zhwiki-latest-pages-articles.xml.bz2

# 然后提取了好久等着吧等啊等

=====================

记录了一下时间，刷屏太快只能靠截图手算估计。(372w-365w)/min=7w条目/min。

不知道为何其他博主都是几十w条的数据量，我下载的这个数据包目前还在解压中已经过了426w条了额……

=====================

(三)原始语料文件内容——实例

weixin_39709674

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
wikisql 数据集解释_【wiki维基百科中文数据集】抽取wiki数据集——实操

参考一、下载数据集到【https://dumps.wikimedia.org/zhwiki/latest/】下载最新的中文wiki百科数据集【zhwiki-latest-pages-articles.xml.bz2】。也就是【https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2】二、提取原始语料...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。