P2 误差

最新推荐文章于 2024-03-09 23:43:25 发布

m0_60586108

最新推荐文章于 2024-03-09 23:43:25 发布

阅读量128

点赞数

版权

机器学习中的Bias和Variance

偏差：Error due to Bias: Bias表示的就是模型预测的值和真实值之间的距离的期望。所以我们会通过建立多个模型（如使用不同的数据子集）来估计这个误差期望值。Bias代表着算法的拟合能力。即模型预测的均值和真实值之间的距离。

简单的模型函数集的space比较小，所以可能space里面就没有包含靶心，肯定射不中。而复杂的模型函数集的space比较大，可能就包含的靶心，只是没有办法找到确切的靶心在哪，但足够多的，就可能得到真正的 f¯f¯。

方差：Error due to Variance: Variance表示的是当你对一个模型使用不同的数据进行多次建模时，这些模型在某一个点上的预测值的方差就是该模型在这个点上预测值的variance。其实就是预测值的方差的意思。Variance代表这算法的鲁棒性。

比较简单的模型，方差是比较小的（就像射击的时候每次的时候，每次射击的设置都集中在一个比较小的区域内）。如果用了复杂的模型，方差就很大，散布比较开。简单的模型受到不同训练集的影响是比较小的

红色的圆心是真实值，小蓝点是预测值

误差和模型复杂度的关系：

简单模型（左边）是偏差比较大造成的误差，这种情况叫做欠拟合，而复杂模型（右边）是方差过大造成的误差，这种情况叫做过拟合。

如果模型没有很好的训练训练集，就是偏差过大，也就是欠拟合如果模型很好的训练训练集，即再训练集上得到很小的错误，但在测试集上得到大的错误，这意味着模型可能是方差比较大，就是过拟合。对于欠拟合和过拟合，是用不同的方式来处理的

1.模型复杂化

2.增加更多的特征，使输入数据具有更强的表达能力

3.调整参数和超参数

超参数包括：
- 神经网络中：学习率、学习衰减率、隐藏层数、隐藏层的单元数、Adam优化算法中的β1β1和β2β2参数、batch_size数值等
- 其他算法中：随机森林的树数量，k-means中的cluster数，正则化参数λλ等

4.增加训练数据往往没有用

5.降低正则化约束

1.增加训练数据数

发生过拟合最常见的现象就是数据量太少而模型太复杂
过拟合是由于模型学习到了数据的一些噪声特征导致，增加训练数据的量能够减少噪声的影响，让模型更多地学习数据的一般特征
增加数据量有时可能不是那么容易，需要花费一定的时间和精力去搜集处理数据
利用现有数据进行扩充或许也是一个好办法。例如在图像识别中，如果没有足够的图片训练，可以把已有的图片进行旋转，拉伸，镜像，对称等，这样就可以把数据量扩大好几倍而不需要额外补充数据
注意保证训练数据的分布和测试数据的分布要保持一致，二者要是分布完全不同，那模型预测真可谓是对牛弹琴了

2.使用正则化约束