python下读sougou中文语料文件

这篇博客介绍了如何在Python环境下处理1.5G的Sougou中文语料XML文件,包括检测文件编码、读取数据、避免处理大文件时的速度问题以及使用jieba进行中文分词。同时,提供了word2vec训练和测试的附加代码。
摘要由CSDN通过智能技术生成

下载的sougou中文语料文件是xml格式的,有1.5G,需要在python下进行正文的提取及中文分词工作。


1. 首先,进行正文的提取,有几个需要注意的细节。


a. 检测文件的中文编码

在python下安装chardet包,使用chardet检查中文格式. 注意读文件时使用的是'rb'.

b. 读取原始数据

在获取了中文编码格式后,使用codecs包,注意参数errors="ignore"的使用,否则会出现以下类似错误:

UnicodeDecodeError: 'gb2312' codec can't decode byte 0xfd in position 440: illegal multibyte sequence


c. 在处理大的文件时,for循环里不要做类似以下的操作,否则速度非常慢。

text_str  = '';

for item in a:

  b = item.replace('<content>','');

  text_str = text_str + (b.replace('</content>',''));

读大文件,linecache.getlines也可以用于加速文件操作。



d. 在写入文件时,特意增加了'\n',这样方便后续的“按行读文件”操作。

   (增加换行符后的文本,在notepad++里的显示如下图&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值