数据分析——数据清洗

最新推荐文章于 2024-01-28 14:31:51 发布

或许快要下雪了吧

最新推荐文章于 2024-01-28 14:31:51 发布

阅读量705

点赞数

分类专栏：金融大数据

本文链接：https://blog.csdn.net/qq_40647378/article/details/107351282

版权

本文总结了数据分析中数据清洗的几个重要步骤，包括数据预处理、处理缺失值（删除和填充）、逻辑内容清洗（去除重复值和异常点处理）。介绍了如何检查和处理缺失值，如使用`isnull().sum()`、`dropna()`函数，以及异常值的3σ原理和箱线图方法。同时，文章提到了数据类型的转换和格式一致性的重要性。

摘要由CSDN通过智能技术生成

数据分析前的准备工作包括：首先是要明确问题以及分析的方向，其次数据的收集，然后是数据的清洗，最后是数据的分析工作。整个过程最错综复杂的就是数据清洗工作，本次尝试着把之前遇到的数据清洗的一些步骤和方法做一个总结，并且随着以后的工作和学习不断完善。

在这里插入图片描述

1、数据预处理当我们导入一份数据后，我们需要对数据的大概有个了解。利用描述性统计可以很方便的对数据有个大致的了解，数据包括数值类型和非数值类型（一般是Object），通过对count max min mean std 等以及唯一值出现次数最多的（top）,频率等信息的观察可以很好的为下面的步骤做铺垫。#数值类型
data.describe().T
#非数值类型
select_dtypes(include=[‘O’]).describe().T2.数据缺失值处理：python缺失值有3种：1）Python内置的None值2）在pandas中，将缺失值表示为NA，表示不可用not available。3）对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。后面出来数据，如果遇到错误：说什么float错误，那就是有缺失值，需要处理掉所以，缺失值有3种：None，NA，NaN