这一部分给了一个误差分析(问题判断)的方法:Error Analysis (和前面的learining curve联系)
还给了一个比较算法优劣的方法:Evaluation Metric(和前面的classification-/accuracyerror比较)
Error Analysis
我们在构建一个机器学习的算法系统时,可以采用这样子的步骤:
1. 快速实现一个简单的算法, 并在验证集上测试你的算法
2. 用learning curve分析,看加数据数或者加特征能够能改善
3. 或者用error analysis的方式,手动地检查测试集中出错的那些数据样本,看其中是否有某种规律或者特征
我们不用担心算法的雏形太简单,太粗暴,因为算法雏形的目标只是为了让你知道接下来应该做什么:
1. error analysis
2. evaluation metric (single real number evaluation)
error analysis能够帮助你知道往哪儿走,evaluation metric 能够帮你更直观地比较不同想法之间的表现优劣
Evaluation Metric
我们在做分类器的时候,一个衡量的标准就是分类的准确率/错误率(accuracy/error)。但是当我们遇到skewed classes这种倾斜(偏倚)程度很高的情况的时候,accuracy还是能够衡量我们算法的好坏,但是它并不能区分我们表现更优的算法到底是因为确实算法效果比较好还是单纯因为我们将预测值预设成了0或者1,取到了数量更多的那个值。
- skewed classes是指一类数据label偏倚程度很重的数据集,比如说大部分都是0,或者大部分都是1
1.那么我们怎么解决这个问题:evaluation metric
假设0多1少 | Actual class | 真实值 | |
---|---|---|---|
1 | 0 | ||
Prediction Classes | 1 | True Positive(TP) | False Postive(FP) |
预测值 | 0 | False Negative(FN) | True Negative(TN) |
True 和False 指示的是预测值与真实值是否相符
Positive 和Negative 指示的是预测值是1还是0
从上面的这个表我们就可以得到
Precision=true_positivepredict_value=1=TPTP+FP
percision表示的是我们预测预测有病(y=1)的人里面有多少真的是有病的
Recall=true_positiveactual_value=1=TPTP+FN
recall表示的是真的有病的人有多少被预测准了的
此处有彩蛋,作者本人可见
2.trade off
high precision 严门槛 不轻易说你有病 因为消息很吓人治疗很痛苦(不想错杀)
high recall 松门槛 不轻易说你没病 可能要进行复查 (不想漏过)
3.如何比较算法的precision和recall
在分类问题里面,我们怎么去选择threshold?
我们说precision和recall其实是由threshold决定的,那么我们选择threshold,也就是选择precision和recall,但是新的问题又出现了,我们怎么去比较不同算法precision和recall的优劣呢?毕竟有两个值!不能直接比较
我们用f score来比较
a. 选择不同的threshold
b. 计算每个算法的f score
c. 取最高的f score对应的threshold