致力于分享量化策略,培训视频,Python,算法研究等相关内容。
什么是过度拟合
过度拟合最初是统计学数据挖掘领域中的概念, 现在机器学习、量化策略领域里也有重要的地位。过度拟合指的是调优一个复杂模型(变量多的模型)去完美拟合历史事件样本,结果模型缺乏预测未来事件的能力。历史样本数越少,模型越复杂, 过度拟合越容易。
欠拟合(高偏差,低方差)与过拟合(低偏差,高方差)的图
知识点:
过拟合:过分依赖训练数据
欠拟合:未能学习训练数据中的关系
高方差:模型根据训练数据显着变化
高偏差:对模型的假设不够导致忽略训练数据过拟合和欠拟合导致测试集的泛化性差;
一个验证集模型校正可以防止过拟合;
1.参数的调优和验证测试不应该用同一个数据集(如下图&