一、语料库下载
搜狗实验室官网:http://www.sogou.com/labs/resource/list_pingce.php
为了使训练的模型有足够的泛化能力,得到更好的词向量表示,因此在这里下载的是完整版的语料库。
.dat文件百度云
链接:https://pan.baidu.com/s/1ksDyNeREwibF-Sv7cVlPng
提取码:ptvl
二、数据预处理
将数据解压缩后得到一个news_sohusite_xml.dat文件,在git bash下找到.dat的目录,运行命令:cat news_sohusite_xml.dat | iconv -f gb18030 -t utf-8 | grep “< content >” > sougou.txt(这一步能将.dat文件成功转换为.txt文件)
ps:这里content标签左右的尖括号我都加了一个空格,方便显示,在操作的过程中记得删掉,下面也是
得到的sougou.txt文件内容为:
这里还残存< content >标签,不过可以在程序中删掉。
使用jieba进行分词操作,生成sougou_seg.txt分词后的文件,在pycharm控制台(或者git bash)运行命令:
python seg_words.py sougou.txt sougou_seg.txt
###seg_words.py###
import logging
import os.path
import sys
from imp import reload
import re
import jieba
reload(sys)
def reTest(content):
reContent = re.sub('<content>|</content>','',content)
return reContent
if __name__ == '__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(