1.改进策略
机器学习算法表现不佳时,有下面6种方法可用于改进其效果。
方法 | 适用情况 |
使用更多的训练数据 | 过拟合(注1) |
减少特征数目 | 过拟合 |
增加特征数目 | 欠拟合(注2) |
增加多项式特征(注3) | 欠拟合 |
减小λ(注4) | 欠拟合 |
增大λ | 过拟合 |
关于是否使用更多训练数据,还有的判断依据是:①数据集现有的特征是否足够我们人工做出正确的决策?若答案为“是”,则建议使用更多训练数据,否则使用更多训练数据可能效果不大。②使用的算法是否具有非常多的参数,比如多隐藏层的神经网络算法。
注1:过拟合指决策模型对训练数据准确率高,对测试数据准确率低。
注2:欠拟合指决策模型对训练数据、测试数据准确率都低。
注3:假设数据集中有一个特征叫x,则该特征值对用的多项形式,如x2,x3称为多项式特征。
注4:我们常常使用正则化技术来应对过拟合问题,正则化是指在损失函数后加“ (λ/2n)∑ni=1 θ2i ”,λ在这里用于控制正则化的程度,n 为数据特征数, θi是第i个特征。