1. 机器学习的一些概念
1.1 有监督、无监督
①. 有监督学习 :训练数据有标记信息,其中分类与回归属于监督学习。
②. 无监督学习 :训练数据没有标记信息,代表有聚类。
1.2 过拟合、欠拟合
偏差(Bias)指预测输出与真实标记的差别。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。
方差(Variance)指一个特定训练集训练得到的函数,与所有训练集得到平均函数的差的平方再取期望。方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。方差表示所有模型构建的预测函数,与真实函数的差别有多大。
如果一个模型,在训练集上的预测结果就不佳,指标偏低,那一般是欠拟合的问题。
如果在训练集上指标很好,而在测试集上指标偏低,则很可能是过拟合问题。甚至有时候,在训练集和测试集上效果都不错,一到真实环境却预测误差较大,这种情况也是过拟合。
对于两种不同的问题,解决办法各不相同。
欠拟合多数情况下是因为选定模型类型太过简单,特征选取不够导致的。
----相应的解法则是针对性的选择更复杂的模型,增加特征,减小正则项比重
而过拟合则相反,可能是模型太过复杂,特征选择不当(过多或组合不当)造成。
----相应的解法则是针对性的选择更简单的模型,减少特征,增大正则项比重
但有一点,无论是欠拟合还是过拟合问题,增大训练数据量都可能会有所帮助。
通常来讲,模型欠拟合时,预测结果不准,偏差较大;但对于不同训练集,训练得到的模型都差不多(对训练集不敏感),此时的预测结果差别不大,方差小。模型过拟合时,模型含有训练集的信息,预测的准确度一般不高,偏差较大;模型对训练集敏感,在与总体同分布的相同大小的不同训练样本上训练得到的模型,在验证集上的表现不一,预测结果相差大,方差大。上述关系如下表所示:
名称 | 过拟合 | 欠拟合 | 备注 |
---|---|---|---|
偏差 | 较大 | 一定大 | 主要针对验证集而言 |