NLP ——句向量表示
- 基于Word2vec
(1)
(2)
- 基于GloVe
GloVe词向量模型融合了全局矩阵分解方法(Matrix Factorization)和局部文本框捕捉方法(word2vec),是一种用于获得单词矢量表示的无监督学习算法。
Gensim加载GloVe训练的词向量 - Doc2Vec(Gensim)
Doc2vec是在Word2vec的基础上做出的改进,它不仅考虑了词和词之间的语义,也考虑了词序。
Doc2Vec有两种模型,分别为:句向量的分布记忆模型(PV-DM: Distributed Memory Model of Paragraph Vectors)和句向量的分布词袋(PV-DBOW: Distributed Bag of Words version of Paragraph Vector)。 - Fasttext
Fasttext可以实现高效学习单词表示和句子分类;Fasttext是一个快速文本分类算法,与基于神经网络的分类算法相比有两大优点:- Fasttext在保持高精度的情况下加快了训练速度和测试速度
- Fasttext不需要预训练好的词向量,Fasttext会自己训练词向量