2.模型评估与选择

pikapi10

已于 2022-05-16 22:50:33 修改

阅读量97

点赞数

分类专栏：吃瓜记录文章标签：其他

于 2022-05-16 22:23:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pikapi10/article/details/124804505

版权

吃瓜记录专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细探讨了经验误差与过拟合的概念，涉及错误率、精度、训练误差、泛化误差及二者的关系。评估方法包括留出法、交叉验证、自助法，以及如何通过测试集评估模型的泛化能力。性能度量涵盖误差率、精度、查准率、查全率和F1度量。此外，还介绍了常见技术领域的性能评估策略，如分类任务的混淆矩阵计算和模型调优过程。

摘要由CSDN通过智能技术生成

2.1 经验误差与过拟合

m样本个数，a个错误样本
错误率E=a/m
精度1-E 误差：实际与样本输出差异
训练误差：训练集上误差
泛化误差：新样本上误差
过拟合：泛化能力下降，学太好（无法避免）
欠拟合：一般性不完好

2.2评估方法

测试集：测试误差近似泛化误差
（测试样本不在训练集出现，新）

2.2.1留出法：

多次随机划分、重复实验取平均值
2/3~4/5用于训练，剩余测试
训练集和测试集保持数据分布一致

2.2.2 交叉验证法

方法：

将数据集D划分成k个大小相似的互斥子集
分层采样，注意数据分布一致性
每次用k-1个训练集，剩下一个测试集
k次训练测试求测试结果平均值

留一法：

一个样本为一个子集
结果准确，但计算量大

2.2.3 自助法

数据集较小、难以有效划分训练测试集时可以用，会引入估计偏差。
D-数据集（m个样本）
D’-每次随机从D挑选一个样本拷贝入D’
样本在m次采样中始终不被采到概率lim-36.8%，约1/3作测试集

2.2.4 调参、最终模型

训练集一部分训练，一部分评估测试作为验证集。训练集在训练过程中会有多个模型，用验证集进行模型选择和调参。

2.3性能度量

-def：衡量模型泛化能力的标准

预测任务：给定样例集D，评估学习器f的性能，把预测结果f（x）和真实y比较
回归任务：均方误差、有概率密度的函数的均方误差

2.3.1 错误率与精度

错误率：公式中f（x）预测结果和真实结果不相同
指示符号：真为1，假为0

2.3.2

其他性能度量：查准率（好瓜是真好的瓜），查全率（真好瓜多少被发现）
混淆矩阵
表2.1
查准率、查全率
反向关系
查准率P 查全率R
-P-R图
查准率P为纵轴、查全率R为横轴作图
查全率和查准率性能度量
BEP:平衡点 P=R
F1度量（调和平均）
F1度量的一般形式Fβ（加权调和平均）
n个二分类问题
1：先求各混淆矩阵的P,R再求其平均值，得到宏查准、全率和宏F1

2：将混淆矩阵的P，R总的先求平均值，再计算微查准率、查全率和微F1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pikapi10 CSDN认证博客专家 CSDN认证企业博客

码龄2年

2: 原创

147万+: 周排名

205万+: 总排名

288: 访问

: 等级

10: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

分类专栏

吃瓜记录 2篇

最新文章

1.瓜绪论

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。