基于搜狗新闻语料库的词向量模型训练（Windows下）

最新推荐文章于 2024-07-27 21:46:44 发布

流浪的小鱼孩

最新推荐文章于 2024-07-27 21:46:44 发布

阅读量1.6k

点赞数 1

本文链接：https://blog.csdn.net/Shinlikr/article/details/107973117

版权

本文介绍了如何在Windows上利用搜狗新闻语料库进行词向量模型训练。首先从搜狗实验室官网下载语料库，接着通过数据预处理将GB18030编码的.dat文件转换成utf-8编码的.txt文件并进行分词。然后使用jieba和gensim的word2vec模块进行训练，最后展示了训练完成的模型。

摘要由CSDN通过智能技术生成

一、语料库下载
搜狗实验室官网：http://www.sogou.com/labs/resource/list_pingce.php 在这里插入图片描述

为了使训练的模型有足够的泛化能力，得到更好的词向量表示，因此在这里下载的是完整版的语料库。
.dat文件百度云
链接：https://pan.baidu.com/s/1ksDyNeREwibF-Sv7cVlPng
提取码：ptvl

二、数据预处理
将数据解压缩后得到一个news_sohusite_xml.dat文件，在git bash下找到.dat的目录，运行命令：cat news_sohusite_xml.dat | iconv -f gb18030 -t utf-8 | grep “< content >” > sougou.txt（这一步能将.dat文件成功转换为.txt文件）
ps：这里content标签左右的尖括号我都加了一个空格，方便显示，在操作的过程中记得删掉，下面也是
得到的sougou.txt文件内容为：在这里插入图片描述
这里还残存< content >标签，不过可以在程序中删掉。
使用jieba进行分词操作，生成sougou_seg.txt分词后的文件，在pycharm控制台（或者git bash）运行命令：
python seg_words.py sougou.txt sougou_seg.txt

###seg_words.py###

import logging
import os.path
import sys
from imp import reload
import re
import jieba
reload(sys)
def reTest(content):
    reContent = re.sub('<content>|</content>','',content)
    return reContent
if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)
    logging.basicConfig(