数据挖掘导论 Chapter4 读书笔记

4.2 机器学习性能评估指标

 

1、分类

准确率Accuracy =1 - error rate = (TP+TN)/(TP+TN+FP+FN)

错误率Error Rate = (FP+FN)/(TP+TN+FP+FN),与ACC是互斥事件。

精确率/精度Precision = TP/(TP+FP),即被分为正例的示例中实际为正例的比例。

召回率Recall Rate/灵敏度Sensitive Rate = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力。

特效度Specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力。

综合评价指标F-measure:Precision和Recall加权调和平均。

接收者操作特征曲线/ROC曲线:是以假正率(FP_rate)和假负率(TP_rate)为轴的曲线,如L1和L2。

 

 PR Curve:即PR(Precision-Recall)曲线。在极度不平衡的数据下(Positive的样本较少),PR曲线可能比ROC曲线更实用。

AUC:曲线与FP_rate轴围成的面积(记作AUC)越大,说明性能越好

2、回归

MAE

MSE

RMSE

其他评价指标

计算速度:分类器训练和预测需要的时间

鲁棒性:处理缺失值和异常值的能力

可扩展性:处理大数据集的能力

可解释性

https://www.cnblogs.com/Zhi-Z/p/8728168.html

4.4 模型过度拟合

概念:即树的规模变得太大,即使训练误差还在继续降低,但是检验误差开始增大。

好的模型必须具有低训练误差/再代入误差/表现误差和低泛化误差/检验误差。

过度拟合成因:噪声导致、缺乏代表性样本、大量的侯选属性和少量的训练记录。

如何估计泛化误差

  1. 再代入估计:将训练误差作为泛化误差的乐观估计,但效果很差
  2. 结合模型复杂度:模型越复杂,出现过分拟合的几率越高

奥卡姆剃刀原则/节俭原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取。

泛化误差的2种估计方法:悲观误差评估和最小描述长度原则。(越小越好)

悲观误差评估:

 最小描述长度原则(minimum description length,MDL):待看

如何处理过分拟合

2种策略:先剪枝和后剪枝。

先剪枝:当观察到不纯性度量的增益(或估计的泛化误差的改进)低于某个确定的阈值时就停止扩展叶节点。缺点是很难为提前终止选取正确的阈值。

后剪枝:按照自底向上的方法修剪完全增长的决策树,2种修剪方法:子树替换和子树提升

子树替换:用新的叶节点代替子树

子树提升:用子树中最常使用的分支代替子树,直到模型不再改进。

4.5 评估分类器性能

4种方法:保持方法、随机二次抽样、交叉验证、自助法

保持方法Holdout:按比例划分训练集和检验集。训练集过小而模型方差变大;验证集过小而准确率不可靠,置信区间较宽。

随机二次抽样Random Subsampling:多次重复保持方法求平均来改进性能估计。

交叉验证cross-validation:假设把数据分为相同大小的k个子集,选择一个子集作为验证集,其他子集作为训练集,该过程重复k次,使每份数据都用于检验恰好一次。则总误差是k次运行的误差之和。缺点是计算量大且性能估计的方差偏高。

自助法Bootstrap:有放回抽样地抽取训练记录(63.2%),没抽中的记录作为检验集的一部分,重复以上过程b次,得到b个自主样本。

总准确率计算方法有:0.632自助

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值