词袋模型 BOW (Bag of Word) 将句子分词后,装进一个袋子里,不考虑其词法与语序,即每个词语都是独立的。然后对每个词进行编码,常见的有one-hot、TF-IDF、Huffman编码。 词向量模型 词向量模型是考虑词语位置关系的一种模型。通过大量语料的训练,将每一个编码后词语映射到高维度的向量当中,通过求余弦的方式,可以判断两个词语之间的关系 现在常用word2vec构成词向量模型,它的底层采用基于CBOW和Skip-Gram算法的神经网络模型。