获得有关如何从头到尾创建和运行分类模型的实践经验在此数据科学和机器学习教程中,获取有关如何从头到尾创建和运行分类模型的动手示例。本教程涵盖以下步骤:
-
数据探索
-
数据预处理
-
拆分数据以进行训练和测试
-
准备分类模型
-
使用流水线组装所有步骤
-
训练模型
-
对模型运行预测
-
评估和可视化模型性能
建立
本教程包括一个用 Python 编写的 Jupyter Notebook。您可以通过 IBM Cloud 帐户使用 Watson Studio 在 IBM Cloud 上运行 Notebook。
-
注册或登录。
-
通过从试用 IBM Cloud Pak for Data 页面登录到 IBM Cloud 帐户来激活 Watson Studio。
-
通过登录 https://dataplatform.cloud.ibm.com 访问 Watson Studio。
-
-
创建一个空项目。
-
单击“创建项目”或“新建项目”。
-
选择“创建空项目”。
-
为项目命名。
-
选择现有的对象存储服务实例或创建一个新实例。
-
单击创建。
-
-
添加笔记本。
-
单击“+添加到项目”。
-
单击“笔记本”。
-
单击“从 URL”。
-
提供名称。
-
在“选择运行时”下,选择“**默认 Python 3.6 免费**”。
-
输入作为笔记本 URL。
https://raw.githubusercontent.com/IBM/ml-learning-path-assets/master/notebooks/classification_start_to_end_with_scikit_learn.ipynb
-
单击 Create Notebook。
-
-
运行笔记本。
在打开的 Notebook 中,单击“运行”以一次运行一个单元。本教程的其余部分遵循笔记本的顺序。
现在,您已经设置了笔记本,让我们继续开发分类模型,使用包含在线交易平台客户信息的数据集来预测客户是否会流失。
数据探索
在实际的机器学习开始之前,必须执行几个步骤。首先,数据科学家必须分析将用于运行预测的数据的质量。数据的偏倚表示会导致模型偏斜。有几种方法可以分析数据。在本教程中,我们进行了最少的数据探索,足以让您了解所完成的工作。然后,我们继续讨论本主题的核心主题。
关于数据集
在本教程中,我们使用包含在线交易平台客户信息的数据集来对给定客户的流失概率是高、中还是低进行分类。这提供了一个很好的示例来了解如何从头到尾构建分类模型。预测将属于三个类别:高、中和低。现在,让我们仔细看看数据集。
数据以 .csv 文件的形式提供给我们,并使用 pandas 库导入。我们使用 numpy 和 matplotlib 来获取一些统计数据并可视化数据。
我们首先运行几行代码来了解每列的数据类型以及每列中的条目数。
性别列中的计数不匹配(见下图)在数据预处理步骤中处理。