一丶总述:要问你的error来自哪里
就像下面这张图,
f
⌢
\overset{\frown} {f}
f⌢是理想的函数,
f
∗
f^*
f∗是你现在找到的函数,bias 和 variance 就是你打偏的原因,打个比方就如同这幅图,你打靶的时候瞄准的点与靶心是有bias的,并且子弹射出去,也会与瞄准的点有variance的
二丶模型的复杂度与bias和variance的关联
简单的model | 复杂的model |
---|---|
大的bias | 小的bias |
小的variance | 大的variance |
model就是函数集合,一个简单的model所代表的的范围小,而复杂的包含的范围大 | 简单的model受不同样本数据的影响更小,复杂的受影响大 |
黑线代表:真实函数,红线代表5000个函数集合,蓝色就是5000个函数取平均值 | 黑线代表:真实函数,红线代表5000个函数集合,蓝色就是5000个函数取平均值 |
三丶那么如何选取bias和variance
我们使用复杂高次方程会使我们瞄准的越来越准,但是散布会越来越大,当同时考虑两者,就是蓝色的线,我们需要选择一个平衡的点
所以如果error来自由variance 就是overfiting,来自bias就是underfiting
四丶overfiting和underfitting的解决方案
模型在训练集上不能很好的fit | 能够fit训练数据,但是不能fit测试 |
---|---|
bias很大 | variance很大 |
欠拟合 | 过拟合 |
1. 采取的方法有输入更多的特征 | 1. 使用更多的数据但是现实往往没有这么多数据提供给你 |
2. 寻找更复杂的函数 | 2. 采用 regularization会强迫曲线平滑,那么只包含平滑的函数可能影响bias |
虽然样本均值不等于
μ
\mu
μ,但其期望等于
μ
\mu
μ
样本会散落在
μ
\mu
μ附近,并且其偏离程度由
σ
2
n
\frac {\sigma^2}{n}{}
nσ2决定,又因为
σ
\sigma
σ不变,那么n越大,散布就会越集中