Pandas常用操作命令（三）——数据清洗

Python当打之年

已于 2022-06-23 11:31:31 修改

阅读量1.2k

点赞数 6

分类专栏： Pandas技巧系列文章标签： pandas python 开发语言

于 2022-06-21 15:49:28 首次发布

本文链接：https://blog.csdn.net/weixin_42152811/article/details/125392319

版权

Pandas技巧系列专栏收录该内容

8 篇文章 19 订阅

订阅专栏

文章目录

🏳️‍🌈 3. 数据清洗
推荐阅读

大家好，我是 👉【Python当打之年(点击跳转)】

本期为大家带来《 Pandas常用操作命令》的 第三篇 ，主要介绍在数据处理可视化过程中经常用到的一些指令，本系列在后期会不断进行补充更新，希望对你有所帮助，如有疑问或者需要改进的地方可以私信小编。

🏳️‍🌈 3. 数据清洗

3.1 重命名列名

df.columns = ['姓名','语文','数学','英语','城市','省份']

在这里插入图片描述

3.2 选择性更改列名

df.rename(columns={'姓名': '姓--名','语文': '语--文'})

在这里插入图片描述

3.3 批量更改索引

df.rename(lambda x: x + 11)

在这里插入图片描述

3.4 批量更改列名

df.rename(columns=lambda x: x + '_1')

在这里插入图片描述

3.5 设置姓名列为行索引

df.set_index('姓名')

在这里插入图片描述

3.6 检查哪些列包含缺失值

df.isnull().any()

在这里插入图片描述

3.7 删除本列中空值的行

df[df['数学'].notnull()]
df[~df['数学'].isnull()]

在这里插入图片描述

3.8 去掉某行、某列

# 去掉某行
df.drop(0, axis=0)

# 去掉某列
df.drop('英语', axis=1)

3.9 删除所有包含空值的行

df.dropna()

在这里插入图片描述

删除了第1、3、5、7行。

3.10 删除行里全都是空值的行

df.dropna(how = 'all')

在这里插入图片描述

仅仅删除了第7行。

3.11 保留至少有n个非空值的行

df.dropna(thresh=n)

3.12 保留至少有11个非空值的列

df.dropna(axis=1,thresh=n)

3.13 行数据向下填充

df.fillna(method = 'ffill')

在这里插入图片描述

3.14 列数据向右填充

df.fillna(method = 'ffill',axis=1)

在这里插入图片描述

3.15 用0替换DataFrame对象中所有的空值

df.fillna(0)

在这里插入图片描述

3.16 强制转换数据类型

df_t1 = df.dropna()
df_t1['语文'].astype('int')

在这里插入图片描述

注意空值不进行转换。

3.17 查看有多少不同的城市

df['城市'].unique()

array(['南京', '广州', '上海', '海口', '深圳', '重庆', nan, '杭州', '宁波', '苏州'],
dtype=object)

3.18 单值替换（整个表格替换）

将苏州替换为南京：

df.replace('苏州', '南京')

在这里插入图片描述

3.19 多值替换

将苏州替换为南京、广州替换成深圳：

# 方法一
df.replace({'苏州':'南京','广州':'深圳'})

# 方法二
df.replace(['苏州','广州'],['南京','深圳'])

在这里插入图片描述

3.20 多值替换单值

将广州和深圳替换为东莞：

df.replace(['深圳','广州'],'东莞')

在这里插入图片描述

3.21 替换某列中的值（单列替换）

df['城市'] = df['城市'].replace('海口', '三亚')

3.22 拆分某列,生成新的Dataframe

将姓名列拆分为学号列和姓名列：

df1 = df['姓名'].str.split('-',expand=True)
df1.columns = ['学号','姓名']
df1['性别'] = df['性别']
df1['语文'] = df['语文']
df1['数学'] = df['数学']
df1['英语'] = df['英语']
df1['城市'] = df['城市']
df1['省份'] = df['省份']
df1

在这里插入图片描述

3.23 某一列类型转换，注意该列类型要一致，包括（NaN）

df1.dropna(inplace = True)
df1['语文'] = df1['语文'].apply(int)

在这里插入图片描述

未完待续。。。

文章首发：微信公众号 “Python当打之年” ，Python编程技巧推送，希望大家可以喜欢。

以上就是本期为大家整理的全部内容了，赶快练习起来吧，原创不易，喜欢的朋友可以点赞、收藏也可以分享（注明出处）让更多人知道。

Pandas常用操作命令（三）——数据清洗

文章目录

🏳️‍🌈 3. 数据清洗

3.1 重命名列名

3.2 选择性更改列名

3.3 批量更改索引

3.4 批量更改列名

3.5 设置姓名列为行索引

3.6 检查哪些列包含缺失值

3.7 删除本列中空值的行

3.8 去掉某行、某列

3.9 删除所有包含空值的行

3.10 删除行里全都是空值的行

3.11 保留至少有n个非空值的行

3.12 保留至少有11个非空值的列

3.13 行数据向下填充

3.14 列数据向右填充

3.15 用0替换DataFrame对象中所有的空值

3.16 强制转换数据类型

3.17 查看有多少不同的城市

3.18 单值替换（整个表格替换）

3.19 多值替换

3.20 多值替换单值

3.21 替换某列中的值（单列替换）

3.22 拆分某列,生成新的Dataframe

3.23 某一列类型转换，注意该列类型要一致，包括（NaN）

推荐阅读

“相关推荐”对你有帮助么？