Wikipedia中文文本数据获取

最新推荐文章于 2024-05-15 16:08:06 发布

胖胖的飞象

最新推荐文章于 2024-05-15 16:08:06 发布

阅读量7.9k

点赞数 4

分类专栏：自然语言处理文章标签：维基百科 wikipedia 中文语料获取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36711901/article/details/79145214

版权

欢迎各位童鞋交流和指教！

-----------------------------------------------------------------------------------

最近因为要做中文语义关系分类，所以需要获取一些中文文本数据，wikipedia中文无疑是一个很好的选择。

因为wiki自己平时隔一段时间就在dump的网页上更新文本数据，这个非常方便我们使用和下载wiki的数据，比爬虫要容易多，而且已经有意大利的大牛BenStobaugh写好了WikipediaExtractor的代码，已经将文本格式、各种神奇的符号去掉，做了初步的处理，不过这个代码存在一些问题，就是可能对有些符号过于敏感，去掉了对我们理解语义可能有用的符号，但目前这个地方对于我来说不太重要，所以我就先用大牛的代码啦。

废话少说，操作步骤如下：

1)先到wiki的dump的网页上下载dump.xml.bz2的文件。https://dumps.wikimedia.org/zhwiki/上点击20170501，下载zhwiki-20170501-pages-articles.xml.bz2

2)使用wikipediaextractor抽取正文文本。网址http://wiki.apertium.org/wiki/Wikipedia_Extractor下载代码，重名名为WikiExtractor.py，当前路径下

python3WikiExtractor.py --infn dump.xml.bz2，

后面是下载

最低0.47元/天解锁文章

胖胖的飞象

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Wikipedia中文文本数据获取

欢迎各位童鞋交流和指教！-----------------------------------------------------------------------------------最近因为要做中文语义关系分类，所以需要获取一些中文文本数据，wikipedia中文无疑是一个很好的选择。因为wiki自己平时隔一段时间就在dump的网页上更新文本数据，这个非常方便我们使用和下...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。