一、模型的选择
①特征数量很多,和样本数量差不多,选择逻辑回归(LR)或线性支持向量机(SVM)。
②特征数量比较小,样本数量一般,不大也不小,选择SVM的高斯核函数版本。
③数据量非常大,又非线性,使用决策树(DT)的升级版本-随机森林。
④数据量巨大,特征向量也非常大,用神经网络深度学习模型。
二、大致步骤
1)定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据。
2)数据预处理:对文档做分词、去停用词等准备工作。
3)数据提取特征:对文档矩阵进行降维,提取训练集中最有用的特征。
4)模型训练阶段:选择具体的分类模型以及算法,训练出文本分类器。
5)评测阶段:在测试集上测试并评价分类器性能。
6)应用阶段:应用性能最高的分类模型对文本进行分类。
更详细的文本分类模型描述