偏差与方差

最新推荐文章于 2024-10-08 00:00:05 发布

读书破万卷心菜

最新推荐文章于 2024-10-08 00:00:05 发布

阅读量870

点赞数 1

分类专栏：实用机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_40232872/article/details/121581254

版权

实用机器学习专栏收录该内容

1 篇文章

订阅专栏

【说明：本文为观看B站沐神视频做的笔记，本文分为两个模块，【1. 基本知识】中介绍了方差与期望的基本知识，【2. 统计学习中的方差与偏差】主要记录沐神所讲的内容】

1. 基本知识

1.1 期望与方差：

盗图1

1.2 运算性质：

盗图2

盗图3

2. 统计学习中的方差与偏差

2.1 直观上的感受方差与偏差。

在统计学习中，使用方差与偏差来评估模型优良性。

上图从左到右，依次为低偏差与低方差、高偏差与低方差、低偏差与高方差。低偏差意味着训练获得的模型的整体偏移程度低，低方差意味着模型间的差距低。可以思考高偏差与高方差的图像应该是什么样子？（蓝色点在圈外，并相对分散）

2.2 数学上的方差与偏差

从真实数据 $y$ 中进行采样，获得采样数据 $D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n}) \right \}$ ,其中 $y=f(x)+\varepsilon$ 。（其中 $f(x)$ 【以下简写为 $f$ 】表示真实数据的模型分布（称之为真实模型），而 $\varepsilon$ 表示真实数据存在的噪声（均值为 $0$ ，方差为 $\sigma ^2$ ））

从采样数据 $D$ 中学习模型 $\hat{f}(x)$ （称之为习得模型） ,目标是使得习得模型能够具有良好的泛化能力（使得 $\hat{f}(x)$ 【以下简写为 $\hat{f}$ 】与真实的 $f$ 相近），这里使用均方误差（Mean Squared Error，MSE）来表示习得模型与真实模型之间的差距，那么更加具体的目的便是要最小化均方误差。更加具体的来说，便是优化如下的函数：

$E_{D}=\left [ (y-\hat{f}(x))^2 \right ]$ （1）将 $y=f(x)+\varepsilon$ 带入)，并补充 $E[\hat{f}]$

$=E\left [ \left ( (f-E[\hat{f}])+\varepsilon -(\hat{f}-E[\hat{f}]) \right )^2 \right ]$ （2）三项平方展开需要注意的是：

$E(f)=f$

$E[\varepsilon ]=0, Var[\varepsilon ]=\sigma ^2$

$\varepsilon$ 和 $\hat{f}$ 相互独立

$=(f-E[\hat{f}])^2 + E[\varepsilon ^2]+E[(\hat{f}-E[\hat{f}])^2]$ （3）交叉相之间的乘积为0

$=Bias[\hat{f}]^2+Var[\hat{f}]+\sigma ^2$ （4）重写等式

（2）中可以理解为三项独立，则其中交叉项都会变成0。

第一项为习得模型的偏差的平方，表示真实模型与习得模型的均值的差距。

第二项为习得模型的方差，表示每一次训练出来的模型与整体训练出来的模型的平均之间的差距，这个项越大则表示模型之间的差距越大。

第三项为噪音的平方。

2.3 偏差与方差之间的权衡

横轴表示模型的复杂的，纵轴表示模型的误差。

紫色的线，一开始的时候，模型相对简单，无法习得数据具有的真实模型，随着模型逐渐地复杂，能够学习的空间会更多，便能够学到真实的模型。但是模型逐渐复杂，模型能够拟合的空间就会越来越大，过多的专注于数据中的噪音（ $\varepsilon$ ），而不是数据的真实模型（ $f$ ），那么此时就是趋向于灰色的线。两线的焦点，便是模型泛化误差较好的点。