训练GloVe中文词向量

准备语料

准备好自己的语料,保存为txt,每行一个句子或一段话,注意要分好词。

准备源码在这里插入图片描述

从GitHub下载代码,https://github.com/stanfordnlp/GloVe
将语料corpus.txt放入到Glove的主文件夹下。

修改bash

打开demo.sh,修改相应的内容

因为demo默认是下载网上的语料来训练的,因此如果要训练自己的语料,需要注释掉
在这里插入图片描述

修改参数设置,将CORPUS设置成语料的名字

在这里插入图片描述
执行bash文件

进入到主文件夹下

make
在这里插入图片描述

bash demo.sh
在这里插入图片描述

注意,如果训练数据较大,则训练时间较长,那么建议使用nohup来运行程序

1
nohup bash demo.sh >output.txt 2>&1 &
坐等训练,最后会得到vectors.txt 以及其他的相应的文件。如果要用gensim的word2ve load进来,那么需要在vectors.txt的第一行加上vacob_size vector_size,第一个数指明一共有多少个向量,第二个数指明每个向量有多少维。

参考

https://www.cnblogs.com/echo-cheng/p/8561171.html

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值