目录
方法1---自己使用opencc库手动了1个转换程序,pip install opencc进行安装
方法2---网上有一个exe应用程序进行转换,详情见:https://bintray.com/package/files/byvoid/opencc/OpenCC
一、数据获取
使用的语料库是wiki百科的中文语料库
下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
上述地址下载较慢,我分享一个我已经下载好的文件(截止2019年7月11日)
下载地址:https://pan.baidu.com/s/1SAXNFcr4hQSZvcMi914_kQ , 提取码:kt20
二、将xml格式数据转为txt
使用了gensim库中的维基百科处理类WikiCorpus,该类中的get_texts方法原文件中的文章转化为一个数组,其中每一个元素对应着原文件中的一篇文章。然后通过for循环便可以将其中的每一篇文章读出,然后进行保存。
当时的转换过程,大概需要了30分钟吧!
三、繁体转为简体
由于维基内有些内容是繁体内容,需要进行繁体--简体转换。