1、TF-IDF
TF代表一个文档里的词频
IDF代表所有文档里的词频,代表全局信息
TF-IDF将TF和IDF相乘,是基于统计学的方法
2、词向量
CBOW:挑一个要预测的词来学习这个词前后文中词语和预测词的关系
Skip-Gram:把上述过程反过来,使用文中某个词,然后预测这个词周边的词
3、句向量
词向量加工成句向量:Encoding过程,进行压缩,到另一个向量空间,然后Decoding,解压
seq2seq:Encoding为LSTM
CNN:Encoding为卷积,卷积核的意思是把几个字连着一起看
Decoding时把预测的值作为下一步的输入