自然语言处理-文本分类

一、模型的选择

①特征数量很多,和样本数量差不多,选择逻辑回归(LR)或线性支持向量机(SVM)。

②特征数量比较小,样本数量一般,不大也不小,选择SVM的高斯核函数版本。

③数据量非常大,又非线性,使用决策树(DT)的升级版本-随机森林。

④数据量巨大,特征向量也非常大,用神经网络深度学习模型。

二、大致步骤

1)定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据。

2)数据预处理:对文档做分词、去停用词等准备工作。

3)数据提取特征:对文档矩阵进行降维,提取训练集中最有用的特征。

4)模型训练阶段:选择具体的分类模型以及算法,训练出文本分类器。

5)评测阶段:在测试集上测试并评价分类器性能。

6)应用阶段:应用性能最高的分类模型对文本进行分类。

更详细的文本分类模型描述

文本分类解决方法综述

https://www.cnblogs.com/sxron/p/7742692.html
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值