模型评估
上文叙述了当机器学习模型已经训练完成之后,我们该如何评估模型的好坏。
但是一般而言,机器学习模型的训练时间较长,在训练过程中,我们怎么样判断模型训练的状态和优劣呢?
之前说过,训练过程中的最容易出现的问题就是过拟合和欠拟合,下面介绍判断拟合状态的方法。
之前介绍过方差、偏差的概念以及他们的意义,在训练过程中,我们会得到训练集和测试集的总误差,通过这两个参数,我们可以判断出算法的拟合状态。
- 当出现欠拟合时,偏差高,方差低
- 当出现过拟合时,方差高,偏差低
拟合状态与样本规模
首先,无论是过拟合还是欠拟合,由于一个特定的函数对于更多的数据更难以拟合,但是对预测是有利的,所以训练集误差会增加,测试集误差会减少。
若出现欠拟合情形,增大数据量,训练集和测试集误差会趋于平缓,并且两者很接近,但是喂更多的数据基本无效。
若出现过拟合情形,增大数据量,训练集误差会持续增加,测试集误差会持续减少,并且两者相差较大。
拟合状态与正则化项
在线性回归、支持向量机等算法中,都会加入正则化项来防止过拟合,因为正则化项可以使得参数尽可能小。
J(hw(x),y)=−1m{
∑i=1myilog(hw