要提高模型性能,除了尝试其他(更复杂)算法以外,我们还需要更改流程。
常用方法侧重于机器学习模型开发的以下某一方面:
1、调节模型参数。
通过更改主要模型参数,不使用其默认设置,我们几乎总能提高性能。
2、添加或修改训练数据。
添加训练数据很有用,直至达到过拟合点(当错误率开始增加时)。额外预处理能够利用我们可能忽视的数据本身(如损坏的数据、异常值或缺失值)补救任何问题。
3、变换或提取特征。
如果我们的当前特征集没有捕获数据中固有的所有变异,提取更多特征可能有作用。相比之下,如果我们看到过拟合迹象,可通过运用缩减技术,比如主成分分析 (PCA)、线性判别分析 (LDA)或奇异值分解 (SVD),进一步减少特征。如果特征在尺度范围上变化很广,则可以借助归一化之类的特征变换。
4、进行特定于任务的权衡。
如果某些误分类不太受欢迎,我们可以运用成本矩阵,对特定预测类分配不同的权重。