我的人工智能之旅——偏斜类问题

偏斜类问题

正样本数占样本总数的比例极小时,容易出现偏斜类问题。

例如癌症测试。样本集合中仅有0.5%的癌症样本,99.5%的正常样本。通过某一假设函数后,得到1%为癌症患者,99%为正常样本。虽然总的正确率高达99%,但假设函数并不理想。因为,我们的目的是为了,检测出是否得癌。

这时候,如果将99%的准确率提升至99.2%,无疑是一个较大的提升,虽然,在数值上来看,只有0.2%。

因此,对于偏斜类问题,需要引入两个概念,查准率(precision)和召回率(recall).

查准率&召回率

还是癌症检测为例。

 

实际标签(1代表得癌)

10

预计标签(1代表得癌)

1AB
0CD

预计得癌人数中,真正得癌的人数,占预计得癌人数的比例,为查准率。即\frac{A}{A+B}

预计得癌人数中,真正得癌的人数,占实际得癌人数的比例,为召回率。即\frac{A}{A+C}

查准率和召回率通常是此长彼消的。

比如,我们使用逻辑回归,计算得癌风险,通过比对阀值p,预判是否得癌。高于p为癌症,低于p为正常。

当将p设置为0.9时,预测过于严谨,导致查出癌症的人数减少,准确率提高,即查准率提高。同时,由于过于严谨,导致部分得癌样本未被检出,因此召回率会比较低。

当将p设置为0.1时,结果又会反转。查准率低,召回率高。

如何权衡查准率和召回率呢?

权衡公式F

通常采用公式F。假设查准率为m,召回率为n,那么

F=\frac{2mn}{m+n}

F值高者,对应的模型更优秀。

例如查准率,召回率都趋近于1,则F趋近于1。

两者趋近于0,则F趋近于0.

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值