Wiki中文语料处理-python

昨天弄了一天的Wiki中文语料处理,发现有一点很重要,数据的完整性校验。
首先是最开始的压缩文件,下载完后要检验是否完整的方法就是解压是否能够成功,成功说明数据至少是完整的。接着是提取出来的txt文档,首先在python环境下要注意文档的编码格式,UTF-8和GBK差别还是有的。接着对于在python中打开文件的时候代码
output = open(outp,'w',encoding="utf-8",errors="ignore"),这里设置遇到错误选择忽视。
    接着处理提取出来的中文文档的,出来的是中文繁体txt,所以需要转换成为简体中文,别人用的是opencc,我是直接用
langconv.py和zh_wiki.py两个文件,具体百度就有很多例子如何使用,然后在转换。具体网址https://github.com/AimeeLee77/wiki_zh_word2vec请自行访问下载,里面有处理压缩文件的、处理简繁体转换。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值