现在趋势是高层用可解释的模型例如 线性模型或者gbdt,下层用带深度的embedding。
文本向量化的 word 2 vector 很不错也有很多自己做得模型,关键在于语聊,模型效果差异不大。
这里有训练好的模型,30种语言非英语,感觉语料不是很好
https://github.com/Kyubyong/wordvectors
这个项目里面有英文预料的,英文有很多语料库例如wordbank google news,wallstreet,都是很好的语聊库。
https://github.com/3Top/word2vec-api
我们当然用我厂自家的模型。
下面是另一片综述的文章。
http://ahogrammer.com/2017/01/20/the-list-of-pretrained-word-embeddings/