前几天看论文,忽然看到了一个跟word2vec并列的词向量工具,这么厉害?还能跟word2vec相提并论?
果断需要试试。
GloVe
它来自斯坦福的一篇论文,GloVe全称应该是
Global
Vectors for Word Representation
大概长这样,上面还有训练好的模型可以下载
下面开始动手。
官方的代码的GitHub在此 :
https://github.com/stanfordnlp/GloVe
可以看到,这是个c的版本,并且跑在linux下。
毕竟最爱的是python,首先想,有没有python版本的,GitHub上其实还真搜到了一个,不过看了一下,应该是哪个小伙伴自己写的,试了一下,发现一百句话的语料它的速度就已经慢得不能忍受了。我们是要面对至少几百M几个G的语料,显然这个是不能接受的。所以就不放链接了。