下载语料库
进入搜狗实验室下载搜狐新闻数据,得到的是news_sohusite_xml.full.tar.gz这个压缩包,我们下载的是完整版的。
数据预处理
原始数据中包含完整的html文件,所以需要提取其中的中文内容,我们只提取其中<content>标签包含的内容。
利用如下两条命令解压文件。(在虚拟机上运行)
tar -zxvf news_sohusite_xml.full.tar.gz
cat news_sohusite_xml.dat | iconv -f gb18030 -t utf-8 | grep "<content>" > corpus_seg.txt
转换完后的数据如下:
这时就全是content中的内容了,虽然还有<content>标签在,不过这个可以在程序中去掉。