第一章机器学习基础笔记(三)#Datawhale X 李宏毅苹果书 AI夏令营

最新推荐文章于 2024-09-29 22:27:37 发布

鲥鱼多刺_02

最新推荐文章于 2024-09-29 22:27:37 发布

阅读量316

点赞数 5

文章标签：人工智能机器学习笔记

本文链接：https://blog.csdn.net/2301_79931517/article/details/141872315

版权

实践方法论

实践方法论在笔记(一)机器学习示例与笔记(三)机器学习基本框架基础上进行过更细致的讲解，整体涉及数学公式含量陡然下降，随着而来的是大量的文字说明。

模型偏差

如同字面意，偏差可能会影响模型训练。举个例子，假设模型过于简单，一个有未知参数的函数代 $\theta_{1}$ 得到一个函数fθ1(x)，同理可得到另一个函数fθ2(x)，把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了，没有包含任何一个函数，可以让损失变低的函数不在模型可以描述的范围内。在这种情况下，就算找出了一个 $\theta ^{*}$ ，虽然它是这些蓝色的函数里面最好的一个，但损失还是不够低。这种情况就像是要在大海里面捞针(一个损失低的函数)，结果自己跑到湖里。

这个时候重新设计一个模型，给模型更大的灵活性。以笔记(一)中预测人均寿命为例，可以增加输入的特征，本来输入的特征只有前年的信息，假设要明年的人均寿命，用前10年的信息，模型的灵活性就比较大了。但是并不是训练的时候，损失大就代表一定是模型偏差，可能会遇到另外一个问题：优化做得不好。

优化问题

梯度下降的方法，如之前所说，有时会出现卡在局部最小值的情况。也就是确实找到了 $\theta ^{*}$ ，但 $\theta ^{*}$ 的损失还是太高，存在更好的函数。就像是大海捞针，针确实在海里，但是无法把针捞起来。训练数据的损失不够低的时候，到底是模型偏差，还是优化的问题呢。找不到一个损失低的函数，到底是因为模型的灵活性不够，海里面没有针。还是模型的灵活性已经够了，只是优化梯度下降不给力，它没办法把针捞出来。

过拟合问题

过拟合是比较常见的问题，一般解决方法分两种：第一种是增加测试集数量，把函数基线卡得更加准确。第二种是减少特征的数量。

交叉验证

比较合理选择模型的方法是把训练的数据分成两半，一部分称为训练集(training set)，一部分是验证集(validation set)。比如90%的数据作为训练集，有10%的数据作为验证集。在训练集上训练出来的模型会使用验证集来衡量它们的分数，根据验证集上面的分数去挑选结果，再把这个结果上传到Kaggle上面得到的公开分数。在挑分数的时候，是用验证集来挑模型，所以公开测试集分数就可以反映私人测试集的分数。但假设这个循环做太多次，根据公开测试集上的结果调整模型太多次，就又有可能在公开测试集上面过拟合，在私人测试集上面得到差的结果。