文本分类——怎么评价训练出的分类模型?

模型的评价就是对模型的准确性和覆盖性的评价。
1. 当然最保险的方法是抽取大量预测实例,进行人工校对。原因是第1实际应用中没有太多的标注测试集可用。第2当预测的实例类别分布不均衡时,很可能导致评价出的结果不能反映真实的准确性。
2. 使用交叉验证调试模型。交叉验证只适用在模型的训练阶段,也就是说要把语料分成3部分,第1部分作为训练集用来训练模型;第2部分作为验证集用来调试模型;第3部分作为测试集用来评价模型的泛化能力。交叉验证结束后,会选出一个准确性最高的模型。
3. 使用准确率和召回率来评价模型。这一部分是在测试集或随机抽取的预测实例上做的。

  • 交叉验证
  • 模型准确率与召回率

交叉验证

  1. 简单交叉验证
    首先随机地将已给数据分为两部分,一部分作为训练集,另一部分作为验证集;然后用训练集在各种条件下训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
  2. S折交叉验证
    首先随机地将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。
  3. 留一交叉验证
    S折交叉验证的特殊情形是S=N,N是给定数据集的容量,称为留一交叉验证。

模型准确率和召回率

准确率和召回率针对不同的应用场景可以使用不同的定义方法。准确率主要侧重描述模型预测结果的准确性。召回率侧重描述模型正确预测了多少测试集中的数据,主要关注的是模型的覆盖性。

准确率=正确预测样本数量/测试集样本总量
召回率=正确预测样本数量/模型给出预测结果的样本数量
召回率(某一个类别i)=在类别i下的正确预测的样本数量/类别i下的样本总量

准确率描述了模型进行预测时的准确性。而不在意模型预测的覆盖性能。比如一个商品分类模型,测试集中含有1000个样本,经过模型后,只对100个样本给出了预测类别,虽然经过人工校对这100个样本的预测结果都是正确的,模型准确率是100%,但是剩下的900个样本都没有给出预测结果,也就是说剩下的900个样本的类别,这个模型都没有覆盖到。召回率太低了。召回率描述了模型对于测试集样本的覆盖率。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值