目录
一、传统机器学习方法——词袋模型
TF值:某个词(字)在文本(一段话)中出现的频率
IDF值:某个词(字)在文本(一段话)中的普遍重要性的度量。某一词(字)的IDF值,可以由总文本数目除以包含该词(字)的文本的数目,再将得到的商取 10为底的对数。
词袋模型就是先用TF-IDF表示文本特征;然后把TF-IDF值和标签值送入分类模型训练。分类模型可以用LR模型、贝叶斯、SVM等。
详见 自然语言处理(NLP) 三:词袋模型 + 文本分类_smart boy-CSDN博客
二、FastText
第一步:输入层
在word2vec中,它的输入就是单纯的把词袋向量化。