原文:https://machinelearningmastery.com/machine-learning-performance-improvement-cheat-sheet/
从一个公众号上看来的,尝试精简翻译一下
从以下4个方面着手:
1.数据
2.算法
3.算法调忧
4.集成
这4个方面对于性能提升的效果一般来讲是逐级递减的。
一、数据
1)获取更多的数据
2)创造更多的数据
3)清洗数据
4)重采样
5)重构你的问题(使其成为回归、分类、时间序列、异常检测、排序、推荐)
6)缩放你的数据
7)转换数据(改变数据分布,使其更接近高斯分布)
8)映射数据(降维,使用聚类手段将数据变得更紧凑)
9)特征选择
10)特征工程
二、算法策略
1)重采样策略(k折交叉验证)
2)评价指标(使用最能够满足问题需求的评价指标,可不一定是分类的准确度)
3)基准表现(可以选定随机、零规则(平均值/众数)来作为基准表现,以此来对所有待评价的算法进行排序)
4)抽样调查线性算法(更快且更易理解)
5)抽样调查非线性算法(更复杂且需要更多的数据,但是一般表现更好点)
6)查看文献(什么算法在你的问题上表现更好)
7)标准参数配置(参数配置)
三、参数调忧
调优策略
1)诊断(学习曲线看是否过拟合/欠拟合,看正确与否)
2)尝试使用直觉
3)查看文献
4)随机搜索(搜索算法的超参)
5)网格搜索(有可枚举的较好的参数待实验)
6)优化(结构、学习率)
7)更换实现工具
8)算法拓展
9)算法定制
10)联系专家
四、集成
集成技巧
1)混合模型的预测(取均值or众数)
2)混合数据代表(不同映射后的数据)
3)混合数据样本(bagging/boosting)
4)矫正预测
5)学习混合(使用一个新的模型去混合这些模型,stacking)
公众号上有更详细的译文:https://mp.weixin.qq.com/s/Ps_k4ACDCQvD1ZoUapjTHw