一. 偏差与方差
偏差描述样本偏离实际值的情况,方差描述样本的分布疏密情况。下图中红色点为真值,蓝色点为样本点,描绘了不同偏差和方差分布情况:
1. 一般来说,模型的误差 = 方差(Bias) + 偏差(Variance) + 不可避免的误差(例如测量带来的精度损失、噪声等)
2. 导致偏差和方差的因素:
导致偏差的原因,可能是对模型的假设是错误的,例如用线性的假设去预测非线性数据,或者采用的特征和预测其实没有关系。在机器学习中,一般不会出现采取的特征和预测毫无相关的情况,事实上导致高偏差的原因主要是欠拟合。
导致方差的原因,通常是因为模型太过复杂,一点的数据抖动都将会影响到结果,过拟合是导致高方差的主要原因。
3. 非参数学习和参数学习的偏差和方差
(1)非参数学习通常都是高方差,因为不对数据进行任何的假设。例如KNN、决策树,高度依赖样本数据。
(2)参数学习通常都是高偏差算法,因为对数据具有极强的假设,例如线性回归。