ChineseWiki︱百万中文维基百科词条下载与整理

最新推荐文章于 2025-02-28 16:41:47 发布

悟乙己

最新推荐文章于 2025-02-28 16:41:47 发布

阅读量1.7w

点赞数

分类专栏： NLP︱R+python 付费-智能写作专栏文章标签：维基百科语料 python 词条搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_26917383/article/details/79462107

版权

付费-智能写作专栏同时被 2 个专栏收录

33 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

63 篇文章

订阅专栏

这篇博客介绍了如何下载和整理维基百科中文词条，包括使用opencc进行繁简转化，处理wiki词条，以及构建关键词检索模块。还提到了在处理过程中遇到的问题和解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

维基百科中文词条

维基百科开源的中文词条内容，收集了99W+词条，当然比百度少了不少。
有效处理该原始语料的方法主要有两个：1、Wikipedia Extractor；2、gensim的wikicorpus库。
两种处理都比较粗糙，导致：

Wikipedia Extractor提取出来的结果，会去掉很多空格与括号里面的内容；
gensim.corpora.wikicorpus.WikiCorpus处理，问题更严重，因为它连所有标点都去掉了。

本篇code见：mattzheng/ChineseWiki
先下载语料文件：下载地址

这里写图片描述

zhwiki-20180301-pages-articles-multistream.xml.bz2 是主文件；
zhwiki-20180301-pages-articles-mu

了解本专栏

超级会员免费看

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。