用Python3.6来做维基百科中文语料

最新推荐文章于 2023-03-14 21:14:39 发布

Johline

最新推荐文章于 2023-03-14 21:14:39 发布

阅读量4.9k

点赞数 5

分类专栏： word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Johline/article/details/74784330

版权

本文介绍了如何使用Python3.6和Wikipedia Extractor处理中文维基百科数据，包括下载、抽取正文文本、繁简转换等步骤，以准备进行word2vec的词向量计算。

摘要由CSDN通过智能技术生成

首先介绍一下word2vec

参考http://www.cnblogs.com/iloveai/p/word2vec.html

2013年，Google开源了一款用于词向量计算的工具——word2vec，引起了工业界和学术界的关注。首先，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练结果——词向量（word embedding），可以很好地度量词与词之间的相似性。随着深度学习（Deep Learning）在自然语言处理中应用的普及，很多人误以为word2vec是一种深度学习算法。其实word2vec算法的背后是一个浅层神经网络。另外需要强调的一点是，word2vec是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候，其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型。

python3.6维基百科中文语料

1.http://www.52nlp.cn/中英文维基百科语料上的Word2Vec实验中下载中文维基百科数据，也可从中文数据的下载地址是：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2。中文维基百科数据特殊处理一下，包括繁简转换，中文分词，去除非utf-8字符等。

2.下载完安装包之后，不需要解压，使用 Wikipedia Extractor

最低0.47元/天解锁文章

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。