中文维基语料训练获取

最新推荐文章于 2024-07-12 16:13:40 发布

四路组相联

最新推荐文章于 2024-07-12 16:13:40 发布

阅读量8.7k

点赞数 6

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013421941/article/details/68947622

版权

本文介绍了在Windows上使用Python3.5和gensim处理中文维基百科语料的过程，包括下载语料、使用WikiExtractor提取文本以及进行繁体到简体的转换。通过提供的链接和步骤，读者可以了解如何在Windows环境下进行预处理。

摘要由CSDN通过智能技术生成

参考：	http://licstar.net/archives/262

https://flystarhe.github.io/2016/08/31/wiki-corpus-zh/

参考了上面两篇文章，但是他们都是基于Linux + python2.7的，有一些老方法或链接行不通，这里是windows + python3.5 + gensim。

首先把需要下载的东西都列出来

1. 语料：下载地址是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2，或者在这里找https://dumps.wikimedia.org/zhwiki/。这个文件只包含了标题和正文，不包含词条之间的链接信息，大小约为1.3G。

2.WikiExtractor：用于从原始的xml文件中提取出标题和正文。地址https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py。因为这个文件不依赖

最低0.47元/天解锁文章

四路组相联

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
中文维基语料训练获取

参考： http://licstar.net/archives/262https://flystarhe.github.io/2016/08/31/wiki-corpus-zh/参考了上面两篇文章，但是他们都是基于Linux + python2.7的，有一些老方法或链接行不通，这里是windows + python3.5 + gensim。首先把需要下载的东西都列出来
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。