数据分析——数据清洗

本文总结了数据分析中数据清洗的几个重要步骤,包括数据预处理、处理缺失值(删除和填充)、逻辑内容清洗(去除重复值和异常点处理)。介绍了如何检查和处理缺失值,如使用`isnull().sum()`、`dropna()`函数,以及异常值的3σ原理和箱线图方法。同时,文章提到了数据类型的转换和格式一致性的重要性。
摘要由CSDN通过智能技术生成

数据分析前的准备工作包括:首先是要明确问题以及分析的方向,其次数据的收集,然后是数据的清洗,最后是数据的分析工作。整个过程最错综复杂的就是数据清洗工作,本次尝试着把之前遇到的数据清洗的一些步骤和方法做一个总结,并且随着以后的工作和学习不断完善。

在这里插入图片描述在这里插入图片描述

1、数据预处理当我们导入一份数据后,我们需要对数据的大概有个了解。利用描述性统计可以很方便的对数据有个大致的了解,数据包括数值类型和非数值类型(一般是Object),通过对count max min mean std 等以及 唯一值 出现次数最多的(top),频率等信息的观察可以很好的为下面的步骤做铺垫。#数值类型
data.describe().T
#非数值类型
select_dtypes(include=[‘O’]).describe().T2.数据缺失值处理:python缺失值有3种:1)Python内置的None值2)在pandas中,将缺失值表示为NA,表示不可用not available。3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。 后面出来数据,如果遇到错误:说什么float错误,那就是有缺失值,需要处理掉所以,缺失值有3种:None,NA,NaN

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值