数据探索和数据准备的步骤

本文详细介绍了数据分析中的核心环节——数据探索和数据准备,包括变量识别、单变量和双变量分析、缺失值处理、异常值处理以及特征提取。通过这些步骤,可以深入理解数据并为后续建模打下基础。
摘要由CSDN通过智能技术生成

前言

如我们所知,数据分析工作的70%的时间都用作于数据清洗,数据探索和数据准备当中,这可以说是数据分析的核心所在。数据清洗主要是工具层面上的,这里先不讨论。我们这里讨论数据探索和数据准备的六大步骤。

  • 变量的识别
  • 单变量的分析
  • 双变量的分析
  • 处理缺失值
  • 处理异常值
  • 特征提取(Feature Engineering)

变量的识别

在对数据分析之前,我们需要去识别变量,去了解变量的类型和数据的类型。比如判别变量是分类型变量的还是连续型变量,是二分类还是有序变量。这些知识在任何一本统计学书上第一章都会详细介绍。图片来自于哈佛大学数据分析课程

单变量的分析

识别完变量之后,我们算是初步的了解了数据的全貌,知道其大概表示什么。接下来我们应该对每一个变量进行分析,以期更深入的了解数据,并希望从中得到一个假设,以便接下来的检验。对于单变量的分析,我们根据单变量的类型进行特定的分析。
连续型变量

  • 概括性度量:均数,中位数,众数,最大值,最小值,极差,百分位数,四分位数,方差,标准差,偏度和峰度。
  • 图形:直方图和箱型图
  • 检验:检验其分布:P-P图和K-S单样本检验

分类型变量:主要是要频数表

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值