一、Bert预训练: 其中我们常用Bert预训练之后产生的CLS Token的浓缩表示表示一个句子;其次我们会使用seq长度的token组合的表示,这样多了一个句子长度的维度。 二、BiLSTM: 将前向lstm和后向lstm进行结合,这样句子就包含了前向和后向的所有信息,但这一类的方法由于LSTM的本身的时序性,导致了其耗时比较长; 三、Glove等词向量模型: 有时候直接使用目前现成的简单的词向量模型,效果反而还挺不错的; 四、词袋模型: 这种表示完全丢失了句子的语义顺序,大多数时候是不满足要求的;