搜狗新闻语料库解析

最新推荐文章于 2023-03-03 11:25:35 发布

深夜虫鸣

最新推荐文章于 2023-03-03 11:25:35 发布

阅读量6.6k

点赞数

分类专栏：深度学习数据相关

本文链接：https://blog.csdn.net/u010122972/article/details/79543061

版权

搜集语料，考虑使用搜狗新闻语料库。但其采用了gbk编码，在ubuntu下打开为乱码，需要将编码格式转换为utf。
直接采用shell命令进行转码：

cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>"  > a.txt

但得到的txt文件中会有些许乱码

想尝试在windows下打开（windows默认gbk编码格式）后转码保存，但文件解压后接近1.5G，记事本、写字板和word等都无法打开。又想直接使用转码工具进行转码，但文件是.dat格式，不能直接转码。

于是，先将.dat格式的文件分割为多个.txt文件，再使用小工具进行批量转码：

# -*- coding:utf8 -*- 
import re       
def split():
    p = re.compile('</doc>',re.S)
    end = '</doc>'
    fileContent = open('news_tensite_xml.dat','r').read();  #读文件内容
    paraList = p.split(fileContent)     #根据</doc>对文本进行切片

最低0.47元/天解锁文章

深夜虫鸣

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
11
评论
搜狗新闻语料库解析

搜集语料，考虑使用搜狗新闻语料库。但其采用了gbk编码，在ubuntu下打开为乱码，需要将编码格式转换为utf。直接采用shell命令进行转码：cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "&lt;content&gt;" &gt; a.txt但得到的txt文件中会有些许乱码想尝试在windows下打开（w...
复制链接

扫一扫