数据分析过拟合与欠拟合

最新推荐文章于 2023-02-01 19:23:39 发布

问君何能尔？心远地自偏

最新推荐文章于 2023-02-01 19:23:39 发布

阅读量286

点赞数

分类专栏：机器学习

原文链接：https://blog.csdn.net/u012019029/article/details/80023898

版权

4 篇文章 0 订阅

订阅专栏

  Overfitting

定义：在训练集上表现良好，在测试集上表现糟糕
产生原因：

 1.训练集和测试集特征分布不一致

 2.数据噪声太大

 3.数据量太小

 4.特征量太多

 5.模型太过复杂

解决方法：

 1.减少特征数量

 2.正则化

 3.增大样本训练规模

 4.简化模型

 5.交叉验证

 6.dropout

```
  Underfitting
```
定义：在训练集和测试集上都表现糟糕。
产生原因：
```
 1.模型复杂度过低

 2.特征量过少
```
处理方法：

1.增加新特征

2.增加模型复杂度
```
   朴素贝叶斯
```
优点：又快又简单性能又好，在数据较少的情况下仍然有效，对数据缺失不敏感，可以处理多类别问题
缺点：需要知道先验概率，对输入数据的准备方式较为敏感，不能学习不同特征间的相互作用，表现简单不能做丰富的假设。
```
  决策树
```
优点：计算复杂度不高，容易解释和说明，输出结果易于理解，对中间值的缺失不敏感，数据的准备简单或者不必要，可以处理不相关特征数据。
缺点：可能会产生过拟合，忽略数据集中属性之间的相关性。