西瓜书第二章笔记

模型评估与选择

经验误差与过拟合

经验误差(empirical error/training error):训练集上的误差

泛化误差(generalization error):新样本上的误差

训练目标:不是使得经验误差最小,而是希望泛化误差最小

过拟合:自身特点当作一般性质

  1. 学习能力过于强大
  2. 无法避免,尽量减少

欠拟合

评估方法

困境:无法直接得到泛化误差,经验误差存在过拟合现象

解决方法:构造测试集,将测试误差作为泛化误差的近似

测试样本与训练样本应不一样

挑选测试集和训练集的方法

留出法
  1. 互斥集合
  2. 保持原数据分布一致性,避免因数据划分引入偏差——分层抽样
  3. 划分方式多样,采用若干次随即划分、重复实验取平均
  4. 训练集过多:评估结果不准确;训练集过少:与真实模型有较大差别
  5. 2/3-4/5数据作为训练集
交叉验证法
  1. 划分k个大小子集。k-1训练集,k测试集
  2. 划分样本方式多样。常用10次10折交叉验证
  3. 留一法是交叉验证法的特例。无划分方式的影响,评估结果比较准确;计算量太大
自助法
  1. 减少因样本规模不同造成的偏差
  2. 新数据集D的样本量与原数据集一样,有放回抽样
  3. 36.8%的数据没有在D中出现,用于测试——包外估计
  4. 适用于数据量小,难以划分训练集和测试集

###调参与最终模型

调参:目的是选择出最优模型。常见做法是对参数设置变化范围和步长

训练数据划分为训练集和验证集

验证集用于进行模型的选择和调参

测试集用于估计泛化误差

性能度量

评估:依赖于评估方法和评价标准(性能度量)

分类任务终的性能度量
错误率与精度
查准率、查全率与F1
  1. 查准率P与查全率R是一对矛盾的度量
  2. P-R图中完全包住的曲线性能较好/平衡点较大的曲线性能较好
  3. F1是基于P与R的调和平均,重视较小值
  4. 区分宏P/宏R与微P/微R
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值