机器学习笔记5——系统设计

关键字:偏斜类,查准率,召回率

一、垃圾邮件分类的例子

1.因为垃圾邮件有一些典型的出现比较多的词,比如buy,diccount,hurry等等,所以可以先从训练集中选择出现频率最高的一些词,把他们放到一个向量里去,这个向量叫特征变量。然后判断的时候就是如果单词出现了,对应的地方就记为1,否则记为0.。最好在交叉验证向量集上做误差分析。

二、不对称分类的误差评估和衡量标准

1、偏斜类(通常把它的值定义为1)

这类的样本比其他类的样本少很多(比如癌症判断,实际上只有0.5%的人得了癌症,得了癌症的人比不得癌症的人少很多,所以这0.5%得了癌症的人叫偏斜类)

2、查准率

还是以癌症病人为例,首先是类似概率论与数理统计里面的拒真和受伪判断两个的一张表(实际上是0还是1,判断出来的是0还是1,一共四种组合,每个组合都有个称呼)


查准率=查准率衡量预测的准确度,越高越好

提高差准率的方法:将阈值提高0.2,就是只有我们预测>0.7的时候才告诉病人患病了。这样可以提高准确率。

就是只有我们预测<0.7的时候才告诉病人患病了。这样可以提高准确率。但是这个做法会导致召回率变低。

3、召回率

召回率

对于真的得了癌症的病人,我们有多大的概率能预测出他们得了癌症,越高越好

召回率=

提高召回率的方法:将阈值降低,比如降低0.2,就是只有我们预测>0.3的时候才告诉病人患病了。这样可以提高准确率。

就是只有我们预测 <0.3的时候才告诉病人患病了。这样可以提高准确率。但是这个做法会导致查准率变低。

4、查准率与召回率是相互矛盾的,一个低另一个高,不严谨的说他们是成反比的

如何在二者之间获得一个比较均衡的值?选取高查准率还是高召回率呢?

可以通过计算F1值,F值越高越好,那么这个时候查准率和召回率都是比较大的,其中P,R分别表示查准率和召回率。


这是观看吴恩达网易云机器学习系列做的笔记

图片来源于视频课件
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值