吃瓜教程——第二章(读书笔记)

本文详细介绍了机器学习中的经验误差与过拟合、评估方法(留出法、交叉验证法、自助法)、性能度量(错误率、精度、查准率、查全率、F1分数、ROC与AUC)以及代价敏感错误率。通过对这些概念的理解,有助于更好地评估和优化学习器的性能。
摘要由CSDN通过智能技术生成

一、经验误差和过拟合

1.1 经验误差和泛化误差

错误率公式 错误率 = 错误样本 样本总数 \text{错误率}=\frac{\text{错误样本}}{\text{样本总数}} 错误率=样本总数错误样本
精度公式 精度 = 1 − 错误率 \text{精度}=1-\text{错误率} 精度=1错误率
经验误差(训练误差):学习器在训练集上的误差
泛化误差:学习器在新样本集上的误差


1.2 过拟合和欠拟合

过拟合:学习器把训练集的样本学得太好了,可能把训练样本自身的一些特点当做了潜在样本都会具有一般的性质,导致泛化能力下降
欠拟合:对训练样本的一般性质尚未学好
周志华老师在书中举出了这样的一个例子
在这里插入图片描述


二、评估方法

由于泛化误差难以测试出,因此采用测试误差作为近似误差即
泛化误差 ≈ 测试误差 \text{泛化误差}\approx \text{测试误差} 泛化误差测试误差

2.1 留出法

直接将数据集D划分为两个互斥的集合,其中一个是训练集S,一个是测试集T,S和T满足下列关系
{ D = S ∪ T ∅ = S ∩ T \left\{ \begin{array}{c} D=S\cup T\\ \varnothing =S\cap T\\\end{array} \right. { D=ST=ST
Tip:由于数据样本容量的大小不同,对最终模型学习的结果产生一定的影响,而因为学习算法需要对数据集D进行学习,而这种方法需要对数据集D进行划分,因此通用的解法是将大概2/3~4/5的数据作为训练集,剩下来的作为测试集

2.2 交叉验证法

交叉验证法:对数据集D划分为K个大小相似的互斥子集,采用分层采样的方法,即 D = D 1 ∪ D 2 ∪ ⋯ ∪ D k ( D i ≠ D j ) D=D_1\cup D_2\cup \cdots \cup D_k\left( D_i\ne D_j \right) D=D1D2Dk(Di=Dj)
交叉验证法的流程图如下所示,
在这里插入图片描述


2.3 自助法

一句话概括就是,通过自助的方法对数据集中的数据进行等概率的放回型采用,所以样本在m次采样中始终不被采样到的概率为
lim ⁡ ( 1 − 1 m ) m ≈ 0.38 \lim \left( 1-\frac{1}{m} \right) ^m\approx 0.38 lim(1m1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值