学习笔记 | Ch05 Pandas数据清洗 —— 缺失值、重复值、异常值

本章节详细介绍了如何使用Pandas进行数据清洗,包括检查和处理缺失值(如通过isnull和dropna方法),移除重复数据(使用duplicated和drop_duplicates函数),填充缺失值(利用fillna方法),以及检测和处理异常值。此外,还提到了利用函数或映射进行数据转换的方法,以及将分类变量转换为虚拟变量的技巧。
摘要由CSDN通过智能技术生成

第5章 数据清洗与整理

  • pandas数据清洗:学会常见的数据清洗方法。
  • 数据合并:学会多源数据的合并和连接。
  • 数据重塑:针对层次化索引,学会stackunstack的使用。
  • 字符串处理:学会DataFrame中字符串函数的使用。

5.1 数据清洗:处理缺失值、重复数据及如何替代值

5.1.1 处理缺失值
1. 侦查缺失值
  • 通过isnullnotnull方法,可以返回布尔值的对象。
  • 这时通过求和可以获取每列的缺失值数量,再通过求和就可以获取整个DataFrame的缺失值数量。
2. 删除缺失值
  • 通过dropna方法可以删除具有缺失值的行。传入how='all',则只会删除全为NaN的那些行。
  • 如果需要删除列,则指定轴方向即可。

在这里插入图片描述

3. 填充缺失值
替换法

在这里插入图片描述

  • 通过fillna方法可以将缺失值替换为常数值。
  • fillna中传入字典结构数据,可以针对不同列填充不同的值,fillna返回的是新对象,不会对原数据进行修改,可通过inplace就地进行修改。
  • 对重新索引中填充缺失值的方法同样适用于fillna中。
  • 对于fillna的参数,可以通过“”进行帮助查询。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

from pandas import Series,DataFrame
import pandas as pd
import numpy as np
df1 = DataFrame([[3,5,3],[1,6,np.nan],['lili',np.nan,'pop'],[np.nan,'a','b']])
df1

在这里插入图片描述

df1.isnull()

在这里插入图片描述

df1.notnull()

在这里插入图片描述

df1.isnull().sum()
0    1
1    1
2    1
dtype: int64
df1.isnull().sum().sum()
3
df1.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
0    3 non-null object
1    3 non-null object
2    3 non-null object
dtypes: object(3)
memory usage: 176.0+ bytes
df1.dropna()

在这里插入图片描述

df2 = DataFrame(np.arange(12).reshape(3,4))
df2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值