Datawhale X 李宏毅苹果书 AI夏令营第五期 task03机器学习框架&实践方法论

一、偏差 

  我们经常用过拟合、欠拟合来定性地描述模型是否很好地解决了特定的问题。从定量的角度来说,可以用模型的偏差(Bias)与方差(Variance)来描述模型的性能。在有监督学习中,模型的期望泛化误差可以分解成三个基本量的和---偏差、方差和噪声。

偏差:指的是由所有采样得到的大小为mm的训练数据集训练出的所有模型的输出的平均值和真实结果之间的差异,度量了模型的期望预测与真实结果的偏离程度,即刻画了模型本身的拟合能力。偏差通常是由于我们对模型做了错误的假设所导致的,比如真实模型是某个二次函数,但我们假设模型是一次函数。由偏差带来的误差通常在训练误差上就能体现出来。

来自周志华西瓜书

二、优化

支持向量机(Support Vector Machine)是一种经典的监督学习算法,用于解决二分类和多分类问题。其核心思想是通过在特征空间中找到一个最优的超平面来进行分类,并且间隔最大。

SVM能够执行线性或非线性分类、回归,甚至是异常值检测任务。它是机器学习领域最受欢迎的模型之一。

三、过拟合


1、指的是模型在训练数据上表现很好,但在未见过的测试数据上表现较差的情况。过拟合发生的原因是模型过于复杂,能够记住训练数据的细节和噪声,而不是学习数据的通用模式。

2、特征:

模型在训练数据上的准确度高。模型在测试数据上的准确度较低。模型的参数数量过多,容易记忆训练数据。

3、如何防止过拟合

数据集扩增:增加更多的训练数据,可以减少过拟合的风险。

正则化:通过添加正则化项,如L1正则化(Lasso)或L2正则化(Ridge),来惩罚模型参数的大小,使模型更简单。

特征选择:选择最重要的特征,降低模型的复杂度。

交叉验证:使用交叉验证来估计模型的性能,选择最佳的模型参数。

早停止:在训练过程中监控验证集的性能,当性能开始下降时停止训练,以防止过拟合。

4.数据增强也叫数据扩增,意思是在不实质性的增加数据的情况下,让有限的数据产生等价于更多数据的价值。

四、交叉验证

交叉验证:就是在训练集中选一部分样本用于测试模型。
保留一部分的训练集数据作为验证集/评估集,对训练集生成的参数进行测试,相对客观的判断这些参数对训练集之外的数据的符合程度。

方法包括:留一法、K折交叉验证、分层交叉验证、对抗验证、时间序列交叉验证

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值