本节课主要介绍偏差Bias和方差Variance
偏差Bias:样本点的均值m不等于真实均值,这之间的差就是Bias,偏差太大一般认为是过拟合
方差Variance:样本的方差不等于真实方差,就是求平均也不相等,方差太大一般认为是欠拟合
Bias 、Variance 和 model的关系
如何解决bias、variance
简单介绍了N折交叉验证
pdf 视频
Estimate the mean of a variable x x x
- assume the mean of x \mathrm{x} x is μ \mu μ
- assume the variance of x x x is σ 2 \sigma^{2} σ2
Estimator of mean μ \mu μ Sample N N N points: { x 1 , x 2 , … , x N } \left\{x^{1}, x^{2}, \ldots, x^{N}\right\} {x1,x2,…,xN}
偏差Bias
m
=
1
N
∑
n
x
n
≠
μ
m=\frac{1}{N} \sum_{n} x^{n} \neq \mu
m=N1n∑xn=μ
样本点的均值m不等于真实均值,这之间的差就是Bias
方差Variance
s 2 = 1 N ∑ n ( x n − m ) 2 s^{2}=\frac{1}{N} \sum_{n}\left(x^{n}-m\right)^{2} s2=N1n∑(xn−m)2
样本的方差不等于真实方差,就是求平均也不相等
E
[
s
2
]
=
N
−
1
N
σ
2
≠
σ
2
E\left[s^{2}\right]=\frac{N-1}{N} \sigma^{2} \neq \sigma^{2}
E[s2]=NN−1σ2=σ2
对比
李老师做了一个比较:打靶如果瞄准真实靶心,由于其他因素导致射偏就是右上情况(bias小,variance大)
打靶如果瞄准虚假靶心,没有由于其他因素导致射偏就是左下情况(bias大,variance小)
而一般人打靶是会有2个误差,瞄准虚假靶心,还由于其他因素导致射偏就是右下情况(bias大,variance大)
运动员则是瞄准真实靶心,没有由于其他因素导致射偏就是左上情况(bias小, variance小)
我们期望学习到的模型就是希望bias小, variance小。
Bias 、Variance 和 model的关系
简单模型,即次数少,对数据不敏感的模型,极端就是
f
(
x
)
=
c
f(x)=c
f(x)=c,得到的结果就是bias大,variance小,
相反的,模型复杂,即次数大,对数据敏感的模型,得到的结果就是bias小,variance大,
Bias 、Variance 和 fitting
bias 小,variance大,认为overfitting,就是复杂模型可以很好拟合训练数据,但是由于对数据敏感,很容易在真实数据上表现的variance很大,导致模型效果不好。
bias 大,variance小,认为underfitting,就是简单模型可以不能很好拟合训练数据,但是由于对数据不敏感,不容易在真实数据上表现的variance很大,但是偏离真实的model,也会导致模型效果不好。
解决bias、variance
bias大,就是打靶瞄错了位置,换个模型(考虑更多feature、增加模型次数幂,即换更复杂模型)
variance大:
- 增加训练数据
- 使用正则化项(平滑)
模型选择
重点就是:不要根据测试集的结果修改模型
如果根据测试集的结果修改模型,会引入了测试集的偏差(测试集是一个样本,会有样本偏差)
交叉验证
训练数据分一部分做验证集,用验证集选模型,在测试集上真正测试,不要用测试集选模型
N折交叉验证
更保险做法,多次验证
以上参考李宏毅老师视频和ppt,仅作为学习笔记交流使用