数据探索和数据准备的步骤

最新推荐文章于 2023-11-29 09:21:13 发布

成鹏

最新推荐文章于 2023-11-29 09:21:13 发布

阅读量6.8k

点赞数 1

分类专栏：数据分析文章标签：数据异常

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013393647/article/details/46754269

版权

本文详细介绍了数据分析中的核心环节——数据探索和数据准备，包括变量识别、单变量和双变量分析、缺失值处理、异常值处理以及特征提取。通过这些步骤，可以深入理解数据并为后续建模打下基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

如我们所知，数据分析工作的70%的时间都用作于数据清洗，数据探索和数据准备当中，这可以说是数据分析的核心所在。数据清洗主要是工具层面上的，这里先不讨论。我们这里讨论数据探索和数据准备的六大步骤。

变量的识别
单变量的分析
双变量的分析
处理缺失值
处理异常值
特征提取(Feature Engineering)

变量的识别

在对数据分析之前，我们需要去识别变量，去了解变量的类型和数据的类型。比如判别变量是分类型变量的还是连续型变量，是二分类还是有序变量。这些知识在任何一本统计学书上第一章都会详细介绍。图片来自于哈佛大学数据分析课程

单变量的分析

识别完变量之后，我们算是初步的了解了数据的全貌，知道其大概表示什么。接下来我们应该对每一个变量进行分析，以期更深入的了解数据，并希望从中得到一个假设，以便接下来的检验。对于单变量的分析，我们根据单变量的类型进行特定的分析。
连续型变量：

概括性度量：均数，中位数，众数，最大值，最小值，极差，百分位数，四分位数，方差，标准差，偏度和峰度。
图形：直方图和箱型图
检验：检验其分布：P－P图和K－S单样本检验

分类型变量：主要是要频数表

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。