1、文本特征向量提取方式
- TF - IDF:单词在当前文档出现的频率 * log(总文档/单词在总文档中出现的文档数 ) 统计单词的TF-IDF,作为文本特征向量
- CountVectorizer:只统计单词的词频,作为文本特征向量
上面两种方式参考这篇 https://blog.csdn.net/The_lastest/article/details/79093407
- Word2Vec
隐藏层求得onehot维度 * 隐藏层神经节点的个数,就是我们需要的wordvec,每一行就是对应单词的编码后的向量- CBOW:输入是上下文,输出是种子单词
- Skip-Gram: 输入是种子单词,输出是上下文
word2vec 参考
2、LTR算法
(TODO 每个方式找个具体的算法看下怎么做的)