模型评估知识点

一、数据划分方法

(优缺点?)
在研究对比不同算法的泛化性能时,把训练数据划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参,用测试集上的判别效果来估计模型在实际使用时的泛化能力。

1、留出法

2、交叉验证法
 - k折交叉验证
 - p次k折交叉验证("10次10折交叉验证法"与"100次留出法"都是进行了100次训练/测试)
 - 留一法(“没有免费的午餐”定理:没有一个学习算法可以在所有情况下总是产生最准确的模型)
	
3、自助法
 - 自助采样亦称为有放回采样
 - 自助法产生的数据集改变了初始数据集的分布(这会引入估计偏差?)

二、划分原则

  • 尽可能保持数据分布的一致性,即从数据集中通过分层采样得到

三、性能度量

1、定义:衡量模型泛化能力的评价标准

2、回归任务

  • 均方误差:注意离群点带来的影响

3、分类任务

  • 错误率与精度(准确率)
    不适用于评估类别非常不均衡的样本

  • 查准率(准确率precision)、查全率(召回率recall)、F1

  • P-R图
    纵坐标为查准率,横坐标为查全率,反映了取不同分类阈值时的表现,不同分类阈值得到不同的(查准率,查全率)。可以综合评估一个排序模型的好坏。

  • ROC曲线
    绘制方法:通过不断移动分类器的“截断点”来生成曲线上的一组关键点。

  • AUC:AUC,越大说明分类器越可能把真正的正样本排在前面,分类性能越好。

(考虑的是样本预测的排序质量,任取一对正负样本,正样本排在负样本之前的概率?)

  • P-R曲线与ROC曲线比较
    1)面对不平衡数据的表现:在数据不平衡时,PR曲线是敏感的(猜想原因,纵坐标Precsion判断为正例的样本中实际为正例的比例,当分类阈值变化时,其分子分母都发生变化,当数据类别不平衡时,Precsion变化剧烈,而Recall,TPR,FPR只分子变化,其变化不敏感),即随着正负样本比例的变化,PR曲线会发生强烈的变化。而ROC曲线是不敏感的,其曲线能够基本保持不变。
    2)P-R曲线在正负样本比例悬殊较大时更能反映分类的性能。
    3)在实际学习中,我们可以用ROC来判断两个分类器的优良,进行分类器的选择;然后可以根据PRC表现出来的结果衡量一个分类器面对不平衡数据进行分类时的能力,从而进行模型的改进和优化。

4、代价敏感错误率与代价曲线

5、偏差与方差

  • 偏差:度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
  • 方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响
  • 噪声:表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
  • (期望)泛化误差:学习器在新样本上的误差,可以分解为偏差、方差与噪声之和。偏差-方差分解说明,泛化性能是由学习算法的能力数据的充分性以及学习任务本身的难度所共同决定。的。给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使得方差较小,即使得数据扰动产生的影响小。
  • 偏差-方差窘境

待解决:评估结果的保真性和稳定性

参考博文:
1、P-R曲线绘制
2、P-R曲线和ROC曲线的比较

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值