【深度学习理论】Model的Errors来自哪里？

最新推荐文章于 2024-01-18 15:26:47 发布

置顶黑白象

最新推荐文章于 2024-01-18 15:26:47 发布

阅读量436

点赞数 2

分类专栏：深度学习理论文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/dendi_hust/article/details/105639549

版权

深度学习理论专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1. 前言

机器学习的本质是从一个function set中挑选一个最优的function（ $f^*$ 又称为model）来拟合样本（设样本的真实分布为 $\hat{f}$ ）。因此，影响 $f^*$ 质量的因素为：

function set是否包含 $\hat{f}$ ；
从function set中挑选的 $f^*$ 是否能有效的拟合样本；

本文从以上两点分析机器学习中影响model效果的因素。

2. 实验

找到一个模型判断Pokemon当前CP值与进化之后的CP值直接的关系。
现给定三个function set：

function set1： $y=w*x_{cp}+b$ ；
function set2： $y=w_{1}*x_{cp}+w_2*x_{cp}^2+w_3*x_{cp}^3+b$ ；
function set3： $y=w_{1}*x_{cp}+w_2*x_{cp}^2+w_3*x_{cp}^3+w_4*x_{cp}^4+w_5*x_{cp}^5+b$ ；

由上可知： $set1\sub set2 \sub set3$ ，即set3囊括的范围最大，set2次之，set1最小。

2.1 Variance

先对三个function set从样本空间中进行100次随机采样训练，得到的效果图如下所示：
在这里插入图片描述
从上图可以看出：function set3选出的 $f^*$ 的离散程度（方差，Variance）最大，function set2次之，function set1最小。由此可以得出：模型越复杂，Variance（方差）越大。

2.2 Bias

假设样本的真实分布 $\hat{f}$ 的函数图像如下：
在这里插入图片描述
上述三个function set的均值如下图蓝色线所示：

从上图可以看出：function set3选出的 $f^*$ 均值与 $\hat{f}$ 的偏移程度（偏置，Bias）最小，function set2次之，function set1最大。由此可以得出：模型越简单，Bias（偏置）越大。

在这里插入图片描述

3. 分析

3.1 Bias VS Variance

有以上实验可知，Model的效果与Variance和Bias有关。
在这里插入图片描述

Model的error来自与Variance和Bias，而Variance和Bias又与Model的复杂程度有关。梳理如下：

Model越复杂（function set的范围大），Variance越大，Bias越小；
Model越简单（function set的范围小），Variance越小，Bias越大；
好的Model是Variance与Bias的平衡；

在这里插入图片描述

3.2 Underfitting VS Overfitting

Underfitting（欠拟合）是指：当Model在training data set中无法获得好的效果时，此时Model有一个Large Bias。有两种常用的方案可以解决此问题：

增加更多的features（特征）；
增大Model的复杂程度；
训练更长的时间；

Overfitting（过拟合）是指：当Model在training data set中有很好的效果，但是在testing data set中效果不佳，此时Model有一个Large Variance。有两种常用方案可以解决此问题：
4. 使用更多的数据进行训练；
5. 正则化；
6. Early Stopping；