Datawhale X李宏毅苹果树 AI夏令营 TASK3

最新推荐文章于 2024-09-29 22:27:37 发布

小马199

最新推荐文章于 2024-09-29 22:27:37 发布

阅读量388

点赞数 4

文章标签：人工智能

本文链接：https://blog.csdn.net/2402_86960539/article/details/141853759

版权

2.1模型偏差
- 定义与表现：模型过于简单导致未能对数据进行充分拟合。
- 解决方法：1.重新设计模型结构，使其更复杂以适应数据的复杂性；2.增加更多相关的特征，让模型有更多信息可利用来进行学习和预测

2.2优化问题
- 问题本质：尽管使用了梯度下降等优化算法，但可能由于各种原因，没有找到使模型性能最优的参数。
- 解决方法：通常可以先使用简单的线性模型或支持向量回归（SVR）进行测试，因为这些模型一般不容易出现优化不到位的情况。当确定是优化问题后，再进一步分析原因并调整优化策略。

2.3 过拟合
- 产生原因：模型的灵活性过强，以至于根据训练集拟合出了过于复杂的函数，对训练集的细节过度学习，导致在测试集上的输出与真实值偏差很大。
- 解决措施：
-增加训练集
- 数据增强等手段
- 给模型一些限制
- 减少参数
- 使用较少的特征
- 早停
- 正则化
- 丢弃法

2.4 交叉验证
- 以三折交叉验证为例：首先将数据划分为训练集、公开测试集（验证集）和私人测试集。在训练过程中，多次轮流使用不同的组合作为训练集和验证集，例如第一次将数据的前 1/3 作为验证集，中间 1/3 和后 1/3 作为训练集；第二次将中间 1/3 作为验证集，前 1/3 和后 1/3 作为训练集；第三次将后 1/3 作为验证集，前 1/3 和中间 1/3 作为训练集。然后选择在验证集上平均结果最好的参数作为最优参数集。最后在训练集和验证集上整体进行训练，在私人测试集上进行测试，这样可以得到比较客观的评价结果，避免模型过拟合于特定的训练集和验证集划分方式，更好地评估模型在不同数据子集上的性能和泛化能力。

2.5 不匹配
- 定义：指数据的分布不同。例如，训练数据和测试数据来自不同的时间段、不同的地区或不同的群体，导致它们的特征分布存在差异。