搜狗新闻语料库解析

搜集语料,考虑使用搜狗新闻语料库。但其采用了gbk编码,在ubuntu下打开为乱码,需要将编码格式转换为utf。
直接采用shell命令进行转码:

cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>"  > a.txt

但得到的txt文件中会有些许乱码

想尝试在windows下打开(windows默认gbk编码格式)后转码保存,但文件解压后接近1.5G,记事本、写字板和word等都无法打开。又想直接使用转码工具进行转码,但文件是.dat格式,不能直接转码。

于是,先将.dat格式的文件分割为多个.txt文件,再使用小工具进行批量转码:

# -*- coding:utf8 -*- 
import re       
def split():
    p = re.compile('</doc>',re.S)
    end = '</doc>'
    fileContent = open('news_tensite_xml.dat','r').read();  #读文件内容
    paraList = p.split(fileContent)     #根据</doc>对文本进行切片
  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值