基于搜狗新闻语料库的词向量模型训练(Windows下)

本文介绍了如何在Windows上利用搜狗新闻语料库进行词向量模型训练。首先从搜狗实验室官网下载语料库,接着通过数据预处理将GB18030编码的.dat文件转换成utf-8编码的.txt文件并进行分词。然后使用jieba和gensim的word2vec模块进行训练,最后展示了训练完成的模型。
摘要由CSDN通过智能技术生成

一、语料库下载
搜狗实验室官网:http://www.sogou.com/labs/resource/list_pingce.php在这里插入图片描述
在这里插入图片描述

为了使训练的模型有足够的泛化能力,得到更好的词向量表示,因此在这里下载的是完整版的语料库。
.dat文件百度云
链接:https://pan.baidu.com/s/1ksDyNeREwibF-Sv7cVlPng
提取码:ptvl

二、数据预处理
将数据解压缩后得到一个news_sohusite_xml.dat文件,在git bash下找到.dat的目录,运行命令:cat news_sohusite_xml.dat | iconv -f gb18030 -t utf-8 | grep “< content >” > sougou.txt(这一步能将.dat文件成功转换为.txt文件)
ps:这里content标签左右的尖括号我都加了一个空格,方便显示,在操作的过程中记得删掉,下面也是
得到的sougou.txt文件内容为:在这里插入图片描述
这里还残存< content >标签,不过可以在程序中删掉。
使用jieba进行分词操作,生成sougou_seg.txt分词后的文件,在pycharm控制台(或者git bash)运行命令:
python seg_words.py sougou.txt sougou_seg.txt

###seg_words.py###

import logging
import os.path
import sys
from imp import reload
import re
import jieba
reload(sys)
def reTest(content):
    reContent = re.sub('<content>|</content>','',content)
    return reContent
if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)
    logging.basicConfig(
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值