python下读sougou中文语料文件

下载的sougou中文语料文件是xml格式的,有1.5G,需要在python下进行正文的提取及中文分词工作。


1. 首先,进行正文的提取,有几个需要注意的细节。


a. 检测文件的中文编码

在python下安装chardet包,使用chardet检查中文格式. 注意读文件时使用的是'rb'.

b. 读取原始数据

在获取了中文编码格式后,使用codecs包,注意参数errors="ignore"的使用,否则会出现以下类似错误:

UnicodeDecodeError: 'gb2312' codec can't decode byte 0xfd in position 440: illegal multibyte sequence


c. 在处理大的文件时,for循环里不要做类似以下的操作,否则速度非常慢。

text_str  = '';

for item in a:

  b = item.replace('<content>','');

  text_str = text_str + (b.replace('</content>',''));

读大文件,linecache.getlines也可以用于加速文件操作。



d. 在写入文件时,特意增加了'\n',这样方便后续的“按行读文件”操作。

   (增加换行符后的文本,在notepad++里的显示如下图&#

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值