1.bias和variance |
![](https://i-blog.csdnimg.cn/blog_migrate/952d647cff07c163457abbe750c9b9cf.png)
上节说到,更复杂的model在testing data上不一定表现的更好,也就是可能会有更大的error。
那么error从何而来呢,有两个因素影响,一个是bias(偏差),一个是variance(方差)。
这里涉及到数学方面,讲述bias和variance
抽样的次数越多, bias和variance越接近真实值,所以每次在一个model中找出一个最好的function,再有很多很多model,把最好的function求期望,就会接近真实的function。
比较简单的model和复杂的model,发现简单的model受样本数据影响更小,有更小的variance,但有可能一开始就瞄错了靶心,即bias比较大。而复杂的model虽然variance更大,但很多复杂model的最好function求期望之后,却更为接近真实的function。如下图。
2.underfitting和overfitting |
3.如何处理bias和variance |
![](https://i-blog.csdnimg.cn/blog_migrate/507b578119b3c71efc774aae3a829b36.png)
当model不能较好地fittraining data时,一般认为有比较大的bias(underfitting),这时候可以重新设计model,比如考虑更多feature,或者选择更复杂的model。
当variance比较大的时候,收集更多的数据是一个行之有效的方法,但这并不总是能办到的,另外一种方法就是Regularization。具体看接下来的学习吧。