机器学习模型优化与数据伦理使用指南
一、机器学习模型优化方法
1. 测试多个模型
“没有免费的午餐”定理提醒我们,不要仅仅因为某些学习方法过去带来了有趣的结果,就对其情有独钟。作为一种良好的实践,应从基本模型(偏差大于方差的模型)开始测试多个模型,并且始终优先选择简单的解决方案而非复杂的方案,因为简单的解决方案可能表现得更好。例如,可以使用线性模型而不是更复杂的基于树的集成模型。
在选择最佳模型来解决问题之前,使用相同的图表表示不同模型的性能是有帮助的。可以将用于预测消费者行为(如对商业报价的响应)的模型放入特殊的增益图和提升图中,这些图表通过将结果划分为十分位数或更小的部分来展示模型的性能。为了突出模型在预测最有潜力客户方面的能力,可以将预测结果从最可能到最不可能进行排序。
测试多个模型并深入了解它们(理解哪些特征与它们配合得更好),还可以为特征转换或特征选择提供建议。
2. 模型平均
机器学习涉及构建许多模型并做出许多不同的预测,所有这些都有不同的预期误差表现。通过对多个模型进行平均,可以获得更好的结果。原理很简单:估计方差是随机的,通过对许多不同的模型进行平均,可以增强信号(正确的预测)并排除噪声(相反的误差相互抵消)。
有时,将表现良好的算法的结果与表现不佳的简单算法的结果混合,可能会比使用单一算法产生更好的预测。在将简单模型(如线性模型)的结果与更复杂算法(如梯度提升)的输出进行平均时,不要低估简单模型的贡献。
3. 模型堆叠
由于与模型平均相同的原因,模型堆叠也可以提供更好的性能。在堆叠中,机器学习模型分两个(有时甚至更多)阶段构建。初始
超级会员免费看
订阅专栏 解锁全文
1085

被折叠的 条评论
为什么被折叠?



