model的误差来源
error的两大来源bias(偏差)和variance(方差)。
误差:机器学习就是寻找一个函数,然后给它一个输入,就能得到一个理想的输出,f head是理论上找到的最佳函数,f star是我们用模型预测出来的函数,两者的差值就是误差。
bias:估计值的期望等于假设值,就是无偏差,反之就是有偏差。当样本数越来越大时,样本均值才无限接近于期望。
variance:方差表达的是数据的离散程度。
Bias:枪打的准不准;Variance:枪打的散不散。
Bias是f head 和f star 的距离;Variance是f star与f bar的距离。
两大来源产生的原因
通过结合实际的实验说明,来观察两者是怎样产生的。
我们要知道bias有多大,就要做多次的实验,确定多个f star,然后求出f star期望值。首先我们可以设计100组实验,每组实验10个数据,然后思考,对于这样的数据,我们选用什么model比较好,哪一种的model最后的bias比较小呢?接着,我们就开始比较不同的model和performance,比如先用一个一次model,就得到了100个不同的f star。之后,进一步比较不同的model中(每种model有100个f star)的表现。有了很多不同的 f star