基于word2vec使用wiki中文语料库实现词向量训练模型--2019最新

本文档详细介绍了如何从wiki中文语料库获取数据,将其从xml转为txt,处理繁体转简体,进行分词,最后使用word2vec训练词向量模型,并检测模型效果。过程中遇到了编码错误的问题并给出了解决方案。
摘要由CSDN通过智能技术生成

目录

一、数据获取

二、将xml格式数据转为txt

三、繁体转为简体

方法1---自己使用opencc库手动了1个转换程序,pip install opencc进行安装

方法2---网上有一个exe应用程序进行转换,详情见:https://bintray.com/package/files/byvoid/opencc/OpenCC  

四、分词

五、Word2Vec模型训练

六、Word2Vec模型检测


一、数据获取

使用的语料库是wiki百科的中文语料库

下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2  

上述地址下载较慢,我分享一个我已经下载好的文件(截止2019年7月11日)

下载地址:https://pan.baidu.com/s/1SAXNFcr4hQSZvcMi914_kQ , 提取码:kt20

二、将xml格式数据转为txt

使用了gensim库中的维基百科处理类WikiCorpus,该类中的get_texts方法原文件中的文章转化为一个数组,其中每一个元素对应着原文件中的一篇文章。然后通过for循环便可以将其中的每一篇文章读出,然后进行保存。

1_process.py

 当时的转换过程,大概需要了30分钟吧!

三、繁体转为简体

由于维基内有些内容是繁体内容,需要进行繁体--简体转换。

方法1---自己使用opencc库手动了1个转换程序,

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值