2.模型评估与选择

本文详细探讨了经验误差与过拟合的概念,涉及错误率、精度、训练误差、泛化误差及二者的关系。评估方法包括留出法、交叉验证、自助法,以及如何通过测试集评估模型的泛化能力。性能度量涵盖误差率、精度、查准率、查全率和F1度量。此外,还介绍了常见技术领域的性能评估策略,如分类任务的混淆矩阵计算和模型调优过程。
摘要由CSDN通过智能技术生成

2.1 经验误差与过拟合

  • m样本个数,a个错误样本
    错误率E=a/m
    精度1-E 误差:实际与样本输出差异
    训练误差:训练集上误差
    泛化误差:新样本上误差
  • 过拟合:泛化能力下降,学太好(无法避免)
    欠拟合:一般性不完好

2.2评估方法

  • 测试集:测试误差近似泛化误差
    (测试样本不在训练集出现,新)
2.2.1留出法:
  • 多次随机划分、重复实验取平均值
  • 2/3~4/5用于训练,剩余测试
  • 训练集和测试集保持数据分布一致
2.2.2 交叉验证法

方法:

  • 将数据集D划分成k个大小相似的互斥子集
  • 分层采样,注意数据分布一致性
  • 每次用k-1个训练集,剩下一个测试集
  • k次训练测试求测试结果平均值

留一法 :

  • 一个样本为一个子集
  • 结果准确,但计算量大
2.2.3 自助法
  • 数据集较小、难以有效划分训练测试集时可以用,会引入估计偏差。
  • D-数据集(m个样本)
    D’-每次随机从D挑选一个样本拷贝入D’
    样本在m次采样中始终不被采到概率lim-36.8%,约1/3作测试集
2.2.4 调参、最终模型
  • 训练集一部分训练,一部分评估测试作为验证集。训练集在训练过程中会有多个模型,用验证集进行模型选择和调参。

2.3性能度量

-def: 衡量模型泛化能力的标准

  • 预测任务:给定样例集D,评估学习器f的性能,把预测结果f(x)和真实y比较
  • 回归任务:均方误差、有概率密度的函数的均方误差
2.3.1 错误率与精度
  • 错误率:公式中f(x)预测结果和真实结果不相同
    指示符号:真为1,假为0
2.3.2
  • 其他性能度量:查准率(好瓜是真好的瓜),查全率(真好瓜多少被发现)

  • 混淆矩阵
    表2.1

  • 查准率、查全率
    反向关系
    查准率P 查全率R
    -P-R图
    查准率P为纵轴、查全率R为横轴作图

  • 查全率和查准率性能度量
    BEP:平衡点 P=R
    F1度量(调和平均)
    F1度量的一般形式Fβ(加权调和平均)

  • n个二分类问题
    1:先求各混淆矩阵的P,R再求其平均值,得到宏查准、全率和宏F1

2:将混淆矩阵的P,R总的先求平均值,再计算微查准率、查全率和微F1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值