当机器学习性能遭遇瓶颈时，如何优化？

最新推荐文章于 2024-09-05 16:11:33 发布

薇酱

最新推荐文章于 2024-09-05 16:11:33 发布

阅读量907

点赞数 2

分类专栏：机器学习

机器学习专栏收录该内容

12 篇文章

订阅专栏

原文：https://machinelearningmastery.com/machine-learning-performance-improvement-cheat-sheet/

从一个公众号上看来的，尝试精简翻译一下

从以下4个方面着手：

1.数据

2.算法

3.算法调忧

4.集成

这4个方面对于性能提升的效果一般来讲是逐级递减的。

一、数据

1）获取更多的数据

2）创造更多的数据

3）清洗数据

4）重采样

5）重构你的问题（使其成为回归、分类、时间序列、异常检测、排序、推荐）

6）缩放你的数据

7）转换数据（改变数据分布，使其更接近高斯分布）

8）映射数据（降维，使用聚类手段将数据变得更紧凑）

9）特征选择

10）特征工程

二、算法策略

1）重采样策略（k折交叉验证）

2）评价指标（使用最能够满足问题需求的评价指标，可不一定是分类的准确度）

3）基准表现（可以选定随机、零规则（平均值/众数）来作为基准表现，以此来对所有待评价的算法进行排序）

4）抽样调查线性算法（更快且更易理解）

5）抽样调查非线性算法（更复杂且需要更多的数据，但是一般表现更好点）

6）查看文献（什么算法在你的问题上表现更好）

7）标准参数配置（参数配置）

三、参数调忧

调优策略

1）诊断（学习曲线看是否过拟合/欠拟合，看正确与否）

2）尝试使用直觉

3）查看文献

4）随机搜索（搜索算法的超参）

5）网格搜索（有可枚举的较好的参数待实验）

6）优化（结构、学习率）

7）更换实现工具

8）算法拓展

9）算法定制

10）联系专家

四、集成

集成技巧

1）混合模型的预测（取均值or众数）

2）混合数据代表（不同映射后的数据）

3）混合数据样本（bagging/boosting）

4）矫正预测

5）学习混合（使用一个新的模型去混合这些模型，stacking）

公众号上有更详细的译文：https://mp.weixin.qq.com/s/Ps_k4ACDCQvD1ZoUapjTHw

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。