无论是什么模型,如线性模型,Logistic回归、神经网络等。对数据的拟合程度:可以直接反应模型的优劣。以下,将是我们讨论的问题:
- 如何判断模型对数据的拟合程度
- 出现欠拟合,过拟合等情况,我们应该如何进行修改。
针对第一个问题,通过偏差与方差可以衡量模型的拟合程度。我们可以通过两个参数的大小来判断模型是否存在欠拟合、过拟合问题。并以此来判断我们是否需要选择:增加训练集数据量,修改某些参数、增加特征数量等操作。
偏差与方差的直观理解
偏差:就是偏离的意思,与“标准”之间的差距。
方差:是离散程度,波动程度的意识。
图1,2的偏差都比较小(都能在靶心的范围内),但是图1的方差更小(数据集中),而图2则方差更大(数据发散)。
图3,4的偏差都比较大(已经脱离了靶心位置)
从机器学习方面理解:
偏差:反映的是模型的拟合能力,度量了预测与真实结果的偏离程度,偏差大有可能是欠拟合,也可能是过拟合。如果是欠拟合则训练集与测试集的loss都大(偏差都大),假如是过拟合,则训练集loss小(偏差小),测试集的loss大(偏差大)
**
**
方差:反映的是模型的泛化能力,也可以理解成模型的抗数据扰动的影响,度量的是从训练集训练得到模型在测试集上的性能变化,方差大就意味则过拟合。
在机器学习中评价模型通常用代价函数 J J J, J t r a i n J_{train} Jtrain表示训练的误差, J v a l J_{val}