使用Python从头开始实现基线机器学习算法
在预测建模问题上建立基线性能非常重要。基线为您稍后评估的更高级方法提供了一个比较点。在本教程中,您将了解如何在Python中从头开始实现基线机器学习算法。
完成本教程后,您将了解:
如何实现随机预测算法。
如何实现零规则预测算法。
让我们开始吧。
更新于2018年8月:经过测试和更新,可与Python 3.6配合使用。
描述
有许多机器学习算法可供选择。事实上数以百计。
您必须知道给定算法的预测是否良好。但你怎么知道的?
答案是使用基线预测算法。基线预测算法提供了一组预测,您可以像对问题的任何预测一样进行评估,例如分类准确度或RMSE。
在评估问题的所有其他机器学习算法时,这些算法的分数提供了所需的比较点。
一旦建立,您可以评论给定算法与天真基线算法相比有多好,提供给定方法实际有多好的背景。
两种最常用的基线算法是:
随机预测算法。
零规则算法。
当开始比传统分类或回归问题更具粘性的新问题时,首先设计一个特定于您的预测问题的随机预测算法是个好主意。稍后您可以对此进行改进并设计零规则算法。
让我们实现这些算法,看看它们是如何工作的。
教程
本教程分为两部分:
随机预测算法。
零规则算法。
这些步骤将为您的机器学习算法实现和计算基线性能提供所需的基础。
1.随机预测算法
随机预测算法预测在训练数据中观察到的随机结果。
它可能是最简单的算法。
它要求您将所有不同的结果值存储在训练数据中