基于word2vec使用wiki中文语料库实现词向量训练模型--2019最新

最新推荐文章于 2023-05-21 12:29:22 发布

锅巴QAQ

最新推荐文章于 2023-05-21 12:29:22 发布

阅读量3.2k

点赞数 3

分类专栏： NLP自然语言处理文章标签： word2vec gensim wiki中文语料库词向量模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Pit3369/article/details/95454354

版权

本文档详细介绍了如何从wiki中文语料库获取数据，将其从xml转为txt，处理繁体转简体，进行分词，最后使用word2vec训练词向量模型，并检测模型效果。过程中遇到了编码错误的问题并给出了解决方案。

摘要由CSDN通过智能技术生成

目录

一、数据获取

二、将xml格式数据转为txt

三、繁体转为简体

方法1---自己使用opencc库手动了1个转换程序，pip install opencc进行安装

方法2---网上有一个exe应用程序进行转换，详情见：https://bintray.com/package/files/byvoid/opencc/OpenCC

五、Word2Vec模型训练

六、Word2Vec模型检测

一、数据获取

使用的语料库是wiki百科的中文语料库

下载地址：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

上述地址下载较慢，我分享一个我已经下载好的文件（截止2019年7月11日）

下载地址：https://pan.baidu.com/s/1SAXNFcr4hQSZvcMi914_kQ ，提取码：kt20

二、将xml格式数据转为txt

使用了gensim库中的维基百科处理类WikiCorpus，该类中的get_texts方法原文件中的文章转化为一个数组，其中每一个元素对应着原文件中的一篇文章。然后通过for循环便可以将其中的每一篇文章读出，然后进行保存。

1_process.py

当时的转换过程，大概需要了30分钟吧！

三、繁体转为简体

由于维基内有些内容是繁体内容，需要进行繁体--简体转换。

方法1---自己使用opencc库手动了1个转换程序，

最低0.47元/天解锁文章

关注

3
点赞
踩
24

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。