搜集语料,考虑使用搜狗新闻语料库。但其采用了gbk编码,在ubuntu下打开为乱码,需要将编码格式转换为utf。
直接采用shell命令进行转码:
cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>" > a.txt
但得到的txt文件中会有些许乱码
想尝试在windows下打开(windows默认gbk编码格式)后转码保存,但文件解压后接近1.5G,记事本、写字板和word等都无法打开。又想直接使用转码工具进行转码,但文件是.dat格式,不能直接转码。
于是,先将.dat格式的文件分割为多个.txt文件,再使用小工具进行批量转码:
# -*- coding:utf8 -*-
import re
def split():
p = re.compile('</doc>',re.S)
end = '</doc>'
fileContent = open('news_tensite_xml.dat','r').read(); #读文件内容
paraList = p.split(fileContent) #根据</doc>对文本进行切片