【啃西瓜】二、模型评估和选择

逻辑如下:

泛化误差能够衡量一个模型的性能好坏、泛化能力。但是,泛化误差不能直接获得。

过拟合和欠拟合

2

3


模型的评估方法

怎么办?采用测试集。使用测试误差近似泛化误差。要求测试集尽可能于训练集互斥。

接下来就是,如何将数据集划分为训练集和测试集。

测试集:用于近似评估模型的泛化能力。

验证集:模型选择和调参

既然有测试集去近似估计模型的泛化能力,那么,评估方法有哪些


比较检验

通过性能度量,怎么对这些结果进行比较?比较大小吗?不。

原因有三

1、我们希望比较的是泛化性能,但是通过实验评估得到的是在测试集上的性能,两者的对比结果可能不一样。【近似最多只能是近似,和groud truth还是有很大差距的。】

2、测试集的锅。我们选择的测试集存在多样性:如不同大小的测试集以及测试集中测试用例的差异。

3、学习算法的锅。学习算法本身具有随机性。这样的算法在同一个测试集上,不同次运行得到的结果可能不同。

那怎么办?统计假设检验(hypothesis test)为我们进行学习器性能比较提供了重要依据。

4

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值