1. 误差分析
(1)构建一个学习算法的推荐方法
- 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法
- 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择
- 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势
(2)误差分析作用
误差分析并不一定能判断应该采取怎样的行动。但通过尝试不同的模型并比较后,能用数值来判断哪一个模型更好更有效,通常是看交叉验证集的误差。
2. 类偏斜的误差度量
对于类偏斜的问题,误差的大小是不能视为评判算法效果的依据的。常采用查准率(Precision)和召回率(Recall)来判断。
查准率=TP/(TP+FP)
召回率=TP/(TP+FN)
其中:TP–真阳性(True Positive);TN-- 真阴性(True Negative,TN);FP-- 假阳性(False Positive);FN-- 假阴性(False Negative)
3. 查准率和召回率之间的权衡
对某个特定的问题高查准率对应低的召回率ÿ