Datawhale AI夏令营 — 学习笔记

                                      实践方法论

模型偏差

模型偏差可能会影响模型训练。举个例子,假设模型过于简单,一个有未知参数的函数代θ1 得到一个函数 fθfθ1(x),同理可得到另一个函数 fθfθ2(x),把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了,没有包含任何一个函数,可以让损失变低的函数不在模型可以描述的范围内。在这种情况下,就算找出了一个 θ∗,虽然它是这些蓝色的函数里面最好的一个,但损失还是不够低。这种情况就是想要在大海里面捞针(一个损失低的函数),结果针根本就不在海里。

优化问题

一般只会用到梯度下降进行优化,这种优化的方法很多的问题。比如可能会卡在局部最小值的地方,无法找到一个真的可以让损失很低的参数。

如果训练损失大,可以先判断是模型偏差还是优化。如果是模型偏差,就把模型变大。假设经过努力 可以让训练数据的损失变小,接下来可以来看测试数据损失;如果测试数据损失也小,比这个 较强的基线模型还要小,就结束了。
但如果训练数据上面的损失小,测试数据上的损失大,可能是真的过拟合。在测试上的结果不好,不一定是过拟合。要把训练数据损失记下来,先确定优化没有问题,模型够大了。接下来才看看是不是测试的问题,如果是训练损失小,测试损失大,这个有可能是过拟合。

过拟合

过拟合(Overfitting)是指在机器学习中,模型在训练集上表现得很好,但在测试集或实际应用中表现不佳的现象。简单来说,过拟合就是模型过于复杂,过分记忆了训练集的噪声和细节,导致不能很好地适应新的数据。

当模型过拟合时,其在训练集上能够达到很高的准确率,但在测试集上的表现较差。这是因为模型过度追求对训练样本的拟合,反而忽略了其泛化能力,无法正确推广到新的样本上。过拟合的模型通常会产生过高的方差,造成过多的误差。

过拟合往往是由于模型容量过大或样本较少引起的。当训练样本较少时,模型更容易过度记忆每个样本的特征,而没有学习到普遍适用的规律。当模型容量过大时,它会有足够的参数来适应训练样本的每个特征,但可能无法泛化到新样本上。

交叉验证

比较合理选择模型的方法是把训练的数据分成两半,一部分叫作训练集(training set), 一部分是验证集(validation set)。比如 90% 的数据放在训练集里面,有 10% 的数据,会被 拿来做验证集,在训练集上训练出来的模型会使用验证集来衡量它们的分数,根据验证集上面的分数去挑选结果。

不匹配

图中横轴就是从 2021 年的 1 月 1 号开始一直往下,红色的线是真实的数字,蓝色的线是预测的结果。2 月 26 日是 2021 年观看人数最高的一天了,机器的预测差距非常的大, 差距有 2.58k,以这一天是 2021 年观看人数最多的一天。跑了一层两层跟四层的看看,所有的模型的结果都不好两层跟三层的错误率都是 2 点多 k,其实四层跟一层比较好,都是 1.8k 左右,但是这四个模型不约而同的,觉得 2 月 26 日应该是个低点,但实际上 2 月 26 日 是一个峰值,模型其实会觉得它是一个低点,也不能怪它,因为根据过去的数据,周五晚上大 家都出去玩了。但是 2 月 26 日反常况。这种情况应该算是另外一种错误的形式, 这种错误的形式称为不匹配(mismatch)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值