【机器学习入门系列】第二章 探索性分析

欢迎来到我们的7部分数据科学和应用机器学习迷你课程!

在上一章中,我们看到了整个机器学习工作流程的概述。我们看到数据科学的“80/20”包括5个核心步骤。

在本章中,我们将深入探讨这些核心步骤中的第一步:  探索性分析

不应将此步骤与数据可视化或摘要统计混淆。那些只是工具......意味着结束。

适当的探索性分析是关于回答问题。它是关于从你的数据集中提取足够的见解,以便你在杂草中迷路之前纠正。

在本指南中,我们将介绍要查找的见解。让我们开始吧。

 

为什么要提前探索数据集?

探索性分析的目的是  “了解”数据集。提前完成这项工作将使项目的其余部分更加顺畅,主要有三种方式:

  1. 您将获得有关数据清理的宝贵提示(可以创建或破坏您的模型)。
  2. 您将会想到特征工程的想法(可以将您的模型从优秀变为优秀)。
  3. 您将获得数据集的“感觉”,这将有助于您传达结果并产生更大的影响。

然而,对机器学习的探索性分析应该是快速,有效和果断的 ......不长并且抽出来!

不要跳过这一步,但也不要卡在上面。

你看,有无限可能的图表,图表和表格,但你只需要少量 “足以”了解数据就可以使用它。

在本课程中,我们将向您展示可提供最大收益的可视化效果。

 

从基础知识开始

首先,您需要回答有关数据集的一组基本问题:

  • 我有多少观察?
  • 有多少功能?
  • 我的功能有哪些数据类型?它们是数字吗?分类?
  • 我有目标变量吗?

 

基本信息

知道你在做什么。

示例观察

然后,您将要显示数据集中的示例观察。这将使您对每个功能的值有“感觉”,这是检查一切是否有意义的好方法。

以下是我们的机器学习大师班的Project 2中使用的房地产数据集的示例(您可以向右滚动以查看更多列):

 

 

 tx_price平方英尺year_built批量财产种类exterior_walls屋顶地下室餐馆杂货夜生活咖啡馆购物arts_entertainmentbeauty_spasactive_life中年的已婚college_grad财产税保险median_schoolnum_schoolstx_year
02958501158420130公寓/公寓/联排别墅木壁板为NaN为NaN1079三十19896475833.065.084.0234.081.093.02013
1216500116121965年0公寓/公寓/联排别墅组成瓦片1.010515613872261439.073.069.0169.051.03.03.02006年
2279900116151963年0公寓/公寓/联排别墅木壁板为NaN为NaN1831331三十10110746228.015.086.0216.074.083.02012
337990011618200033541公寓/公寓/联排别墅木壁板为NaN为NaN1989382512711728336.025.091.0265.092.093.02005年
4340000116341992年0公寓/公寓/联排别墅为NaN为NaN149722208310507337.020.075.088.030.093.02002年

显示数据集中的示例的目的不是执行严格的分析。相反,它是 为数据集获得  定性的“感觉”

  • 列有意义吗?
  • 这些列中的值是否有意义?
  • 这些值是否合适?
  • 丢失的数据将是基于快速眼球测试的一个大问题?

 

绘制数值分布

接下来,绘制数字要素的分布可能非常有启发性。

通常,快速而脏的直方图网格   足以理解分布。

以下是一些需要注意的事项:

  • 意外的分布
  • 潜在的异常值没有意义
  • 应该是二进制的特征(即“想要指示变量”)
  • 边界没有意义
  • 潜在的测量误差

此时,您应该开始记录您想要做的潜在修复。如果某些内容看起来不合适,例如您的某个功能中存在潜在的异常值,那么现在是向客户/关键利益相关方询问或者深入挖掘的好时机。

但是,我们会等到Data Cleaning进行修复,以便我们能够保持步骤的有序性。

直方图网格

 

绘制分类分布

无法通过直方图显示分类要素。相反,您可以使用  条形图

特别是,您需要注意  稀疏类,这些类是具有非常少量观察的类。

顺便说一句,“类”只是分类特征的唯一值。例如,以下条形图显示了名为“exterior_walls”的特征的分布。所以Wood Siding,Brick和Stucco都是这个功能的类。

酒吧情节

无论如何,回到稀疏类......正如你所看到的,'exterior_walls'的 一些类  有很短的条形。那些是稀疏的课程。

在构建模型时,它们往往会出现问题。

  • 在最好的情况下,它们不会对模型产生太大影响。
  • 在更糟糕的情况下,它们可能导致模型过度拟合

因此,我们建议您   稍后组合 或  重新分配其中一些类。我们更喜欢将其保存到Feature Engineering(第4课)。

 

绘图分段

分段是观察分类特征和数字特征之间关系的有效方法。

箱形图 允许您这样做。

以下是您可以从下图中获得的一些见解。

  • 单户住宅的中位交易价格(框中间垂直条)远高于公寓/公寓/联排别墅。
  • 最小最大的交易价格是两个阶级之间的可比性。
  • 事实上,圆形分钟($ 200k)和最大($ 800k)表明可能的数据截断 ...
  • ...在以后评估模型的普遍性 时,记住这一点非常重要  !

箱形图

 

研究相关性

最后,相关性允许您查看数字要素与其他数字要素之间关系

相关性是介于-1和1之间的值,表示两个要素一致移动的程度。您无需记住数学计算它们。只要知道以下直觉:

  • 相关意味着当一个特征增加时,另一个特征增加。例如孩子的年龄和身高。
  • 相关意味着当一个特征增加时,另一个特征减少。例如,学习的时间和参加的人数。
  • -1或1附近的相关性表明关系密切
  • 接近0的人表示关系薄弱
  • 0表示没有关系

相关  热图可  帮助您可视化此信息。这是一个例子(注意:所有相关性都乘以100):

相关热图

一般来说,你应该注意:

  • 哪些特征与目标变量密切相关?
  • 其他功能之间是否存在有趣或意想不到的强相关性?

同样,您的目标是获得对数据的直觉,这将在整个工作流程的其余部分帮助您。

 

章节测验

在探索性分析步骤结束时,您将对数据集,数据清理的一些注释以及可能的特征工程想法有很好的理解。

陆浩!

没有人有心告诉杰瑞,他发现的只是“巴哈马捣碎的土豆”周刊特别...


这是一个简短的测验来检查你得到了一切:

  • 什么类型的功能可以有稀疏类?你会如何检查它们?
  • 如果'sqft'  (物业的大小)与'浴室'  (浴室的#)有0.68的相关性,  这意味着什么  ?
  • 通过查看数据集中的示例观察,可以进行3次健全性检查?

 

原文:https://elitedatascience.com/exploratory-analysis

 

 

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
探索性数据分析(Exploratory Data Analysis,简称EDA)和机器学习之间有密切的联系。 EDA是一种数据分析的方法,旨在通过可视化和统计技术来理解数据集的特征、结构和模式。它帮助我们发现数据中的异常值、缺失值、相关性和趋势等信息,以便为后续的分析和决策提供基础。 机器学习是一种使用算法和模型来让计算机从数据中学习并进行预测或决策的方法。它依赖于输入数据的质量和特征选择等因素,而这些因素可以通过EDA来帮助我们理解和准备数据。 具体来说,EDA可以帮助我们进行以下几个方面的工作: 1. 数据预处理:通过EDA,我们可以检查数据中的缺失值、异常值和重复值等问题,并决定如何处理它们。这对于后续的机器学习任务非常重要,因为模型对于干净、一致和完整的数据更容易学习。 2. 特征工程:EDA可以帮助我们发现数据中的相关性、趋势和模式等特征。这些洞察可以用于选择和构建有助于机器学习任务的特征。通过合理选择特征,可以改善模型的性能和效果。 3. 数据可视化:EDA通过可视化技术,如直方图、散点图和箱线图等,可以帮助我们直观地理解数据的分布、关系和变化趋势。这有助于我们发现数据中的规律和异常情况,并为机器学习任务提供直观的参考。 总之,EDA提供了数据分析的基础,为机器学习任务提供了数据准备和特征选择的依据,可以帮助我们更好地理解数据并优化机器学习模型的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值