Coursera ML笔记 -----week6 -2 Machine Learning System Design

欢迎点击作者原文地址

这一部分给了一个误差分析(问题判断)的方法:Error Analysis (和前面的learining curve联系)
还给了一个比较算法优劣的方法:Evaluation Metric(和前面的classification-/accuracyerror比较)

Error Analysis

我们在构建一个机器学习的算法系统时,可以采用这样子的步骤:
1. 快速实现一个简单的算法, 并在验证集上测试你的算法
2. 用learning curve分析,看加数据数或者加特征能够能改善
3. 或者用error analysis的方式,手动地检查测试集中出错的那些数据样本,看其中是否有某种规律或者特征

我们不用担心算法的雏形太简单,太粗暴,因为算法雏形的目标只是为了让你知道接下来应该做什么:
1. error analysis
2. evaluation metric (single real number evaluation)
error analysis能够帮助你知道往哪儿走,evaluation metric 能够帮你更直观地比较不同想法之间的表现优劣


Evaluation Metric

我们在做分类器的时候,一个衡量的标准就是分类的准确率/错误率(accuracy/error)。但是当我们遇到skewed classes这种倾斜(偏倚)程度很高的情况的时候,accuracy还是能够衡量我们算法的好坏,但是它并不能区分我们表现更优的算法到底是因为确实算法效果比较好还是单纯因为我们将预测值预设成了0或者1,取到了数量更多的那个值。

  • skewed classes是指一类数据label偏倚程度很重的数据集,比如说大部分都是0,或者大部分都是1

1.那么我们怎么解决这个问题:evaluation metric

假设0多1少Actual class真实值
10
Prediction Classes1True Positive(TP)False Postive(FP)
预测值0False Negative(FN)True Negative(TN)

True 和False 指示的是预测值与真实值是否相符
Positive 和Negative 指示的是预测值是1还是0

从上面的这个表我们就可以得到
Precision=true_positivepredict_value=1=TPTP+FP
percision表示的是我们预测预测有病(y=1)的人里面有多少真的是有病的
Recall=true_positiveactual_value=1=TPTP+FN
recall表示的是真的有病的人有多少被预测准了的

此处有彩蛋,作者本人可见

2.trade off

high precision 严门槛 不轻易说你有病 因为消息很吓人治疗很痛苦(不想错杀)
high recall 松门槛 不轻易说你没病 可能要进行复查 (不想漏过)

3.如何比较算法的precision和recall

在分类问题里面,我们怎么去选择threshold?
我们说precision和recall其实是由threshold决定的,那么我们选择threshold,也就是选择precision和recall,但是新的问题又出现了,我们怎么去比较不同算法precision和recall的优劣呢?毕竟有两个值!不能直接比较

我们用f score来比较

F=2PRP+R

a. 选择不同的threshold
b. 计算每个算法的f score
c. 取最高的f score对应的threshold

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值