Basic Concept
Where does the error come from?
越复杂的model不见得会带给你越低的error
error主要来源于 bias(偏差) 和 variance(方差)
了解了error的来源有助于采取适当的方法来improve你的model
Bias and Variance of Estimator
均值、方差、样本估计总体、无偏估计、矩估计、中心极限定理…(概率论)
个人理解:偏差看距离点远近,方差看点的分散程度;点越集中,方差越小;离中心越远,偏差越大。(射击的准和稳)
Simpler model is less influenced by the sampled(样品) data
直观解释:简单的model的function space比较小,可能根本没有包含靶心target,所以bias比较大;而复杂model的function space大到可以包含很多地方,可能包含了这个target,但他无法找出这个target,因为提供的training data不够。
总结:简单的model有比较大的bias和比较小的variance;复杂的model的bias比较小但variance比较大(和training data拟合更好,但不适用于testing data)。如果这个error来自于large variance则称为overfitting;如果这个error来自于large bias则称为underfitting
What to do with large bias?
underfitting:你的model无法拟合training data,那你可能有较大的bias
overfitting:你的model可以拟合training data,但在testing data上有较大的error,那你可能有较大的variance
要想处理bias,需要重新设计你的model:
- 在input里增加新的features
- 设计一个更复杂的model
What to do with large variance?
- 收集更多的data(非常有效,但很多时候无法实现)
- regularization(但是可能会增大这个model的bias)
Model Selection
在bias和variance间取得平衡,选择一个对training data和testing data的error都最小的model
除非你的testing set比较好地代表了总体分布,否则实际使用时Err一定会变差
可以进行交叉验证,把训练集拆分成训练集和验证集