概念
我们假设真实的函数关系是Y=f(x),而训练模型预测的结果是p(x),则
偏差错误:偏差是衡量预测值和真实值的关系。即N次预测的平均值(也叫期望值),和实际真实值的差距。所以偏差bias=E(p(x)) - f(x)。即bias是指一个模型在不同训练集上的平均表现和真实值的差异,用来衡量一个模型的拟合能力。
方差错误:方差用于衡量预测值之间的关系,和真实值无关。即对于给定的某一个输入,N次预测结果之间的方差。variance= E((p(x) - E(p(x)))^2)。反应的是统计量的离散程度。即variance指一个模型在不同训练集上的差异,用来衡量一个模型是否容易过拟合。
打靶图
我第一次看到这张图时,把图上的蓝点理解成了每次射击时的结果,即一个训练模型对不同输入X作出的不同预测Y。如果是这么理解的话,就没法解释后面的高方差了。
其实,每一个蓝点,都代表了一个训练模型的预测数据,即
根据不同的训练集训练出一个训练模型,再用这个训练模型作出一次预测结果。如果将这个过程重复N次,相当于进行了N次射击。
打靶图解释
高偏差,低方差:<