文章目录 生成对应特征向量 生成对应特征向量 几种文本特征向量化方法 1.词集模型:one-hot编码向量化文本(统计各词在文本中是否出现) 2.词袋模型:文档中出现的词对应的one-hot向量相加(统计各词在文本中出现次数,在词集模型的基础上。) 3.词袋模型+IDF:TFIDF向量化文本(词袋模型+IDF值,考虑了词的重要性) 4.N-gram模型:考虑了词的顺序 5.word2vec模型:使用文章中所有词的平均词向量作为文章的向量