使用 Python 和 scikit-learn 生成和测试第一个机器学习模型

本文介绍如何使用Python和scikit-learn从头到尾创建分类模型,涉及数据探索、预处理(包括数据清洗、特征工程)、拆分数据、训练随机森林模型、评估与可视化模型性能。通过实例演示,逐步指导读者搭建一个完整的流程。
摘要由CSDN通过智能技术生成

获得有关如何从头到尾创建和运行分类模型的实践经验在此数据科学和机器学习教程中,获取有关如何从头到尾创建和运行分类模型的动手示例。本教程涵盖以下步骤:

  • 数据探索

  • 数据预处理

  • 拆分数据以进行训练和测试

  • 准备分类模型

  • 使用流水线组装所有步骤

  • 训练模型

  • 对模型运行预测

  • 评估和可视化模型性能

建立

本教程包括一个用 Python 编写的 Jupyter Notebook。您可以通过 IBM Cloud 帐户使用 Watson Studio 在 IBM Cloud 上运行 Notebook。

  1. 注册或登录。

  2. 创建一个空项目。

    • 单击“创建项目”或“新建项目”。

    • 选择“创建空项目”。

    • 为项目命名。

    • 选择现有的对象存储服务实例或创建一个新实例。

    • 单击创建

  3. 添加笔记本。

    • 单击“+添加到项目”。

    • 单击“笔记本”。

    • 单击“从 URL”。

    • 提供名称

    • 在“选择运行时”下,选择“**默认 Python 3.6 免费**”。

    • 输入作为笔记本 URLhttps://raw.githubusercontent.com/IBM/ml-learning-path-assets/master/notebooks/classification_start_to_end_with_scikit_learn.ipynb

    • 单击 Create Notebook

  4. 运行笔记本。

    在打开的 Notebook 中,单击运行”以一次运行一个单元。本教程的其余部分遵循笔记本的顺序。

现在,您已经设置了笔记本,让我们继续开发分类模型,使用包含在线交易平台客户信息的数据集来预测客户是否会流失。

数据探索

在实际的机器学习开始之前,必须执行几个步骤。首先,数据科学家必须分析将用于运行预测的数据的质量。数据的偏倚表示会导致模型偏斜。有几种方法可以分析数据。在本教程中,我们进行了最少的数据探索,足以让您了解所完成的工作。然后,我们继续讨论本主题的核心主题。

关于数据集

在本教程中,我们使用包含在线交易平台客户信息的数据集来对给定客户的流失概率是高、中还是低进行分类。这提供了一个很好的示例来了解如何从头到尾构建分类模型。预测将属于三个类别:高、中和低。现在,让我们仔细看看数据集。

数据以 .csv 文件的形式提供给我们,并使用 pandas 库导入。我们使用 numpy 和 matplotlib 来获取一些统计数据并可视化数据。

Using numpy and matplotlib to get some statistics and visualize data

我们首先运行几行代码来了解每列的数据类型以及每列中的条目数。

Understanding the data type in columns

性别列中的计数不匹配(见下图)在数据预处理步骤中处理。

  • 26
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值