文章大纲
设计机器学习管道
在本节中,我们将介绍如何创建和调整ML管道。作为组织一系列操作以应用于数据的一种方式,管道的概念在许多ML框架中是常见的。
在ML lib中,管道API提供了一个建立在Data Frames之上的高级API来组织机器学习工作流。管道API由一系列变压器和估计器组成,我们将在稍后深入讨论。
在整个本章中,我们将使用来自Inside Airbnb的旧金山住房数据集。
它包含了旧金山Airbnb租赁的信息,如卧室的数量、位置、评论分数等,我们的目标是建立一个模型来预测该城市租赁价格。这是一个回归问题,因为价格是一个连续变量。我们将指导完成数据科学家处理这个问题的工作流程,包括特征工程,
建立模型,超参数调优,并评估模型性能。
这个数据集相当混乱,很难建模(就像大多数真实世界的数据集一样! ),所以如果你自己做实验,你的早期模型不太好,或者出现了各种问题,是很正常的,不要难过。
本小节的目的不是向您展示MLlib中的每个API,而是让您掌握使用MLlib构建端到端管道的技能和知识。在进入细节之前,让我们定义一些MLlib术语:
Transformer 转换器
接受数据帧