文章目录
- 🏳️🌈 3. 数据清洗
- 3.1 重命名列名
- 3.2 选择性更改列名
- 3.3 批量更改索引
- 3.4 批量更改列名
- 3.5 设置姓名列为行索引
- 3.6 检查哪些列包含缺失值
- 3.7 删除本列中空值的行
- 3.8 去掉某行、某列
- 3.9 删除所有包含空值的行
- 3.10 删除行里全都是空值的行
- 3.11 保留至少有n个非空值的行
- 3.12 保留至少有11个非空值的列
- 3.13 行数据向下填充
- 3.14 列数据向右填充
- 3.15 用0替换DataFrame对象中所有的空值
- 3.16 强制转换数据类型
- 3.17 查看有多少不同的城市
- 3.18 单值替换(整个表格替换)
- 3.19 多值替换
- 3.20 多值替换单值
- 3.21 替换某列中的值(单列替换)
- 3.22 拆分某列,生成新的Dataframe
- 3.23 某一列类型转换,注意该列类型要一致,包括(NaN)
- 推荐阅读
大家好,我是 👉【Python当打之年(点击跳转)】
本期为大家带来 《 Pandas常用操作命令》 的 第三篇 ,主要介绍在数据处理可视化过程中经常用到的一些指令,本系列在后期会不断进行补充更新,希望对你有所帮助,如有疑问或者需要改进的地方可以私信小编。
🏳️🌈 3. 数据清洗
3.1 重命名列名
df.columns = ['姓名','语文','数学','英语','城市','省份']
3.2 选择性更改列名
df.rename(columns={'姓名': '姓--名','语文': '语--文'})
3.3 批量更改索引
df.rename(lambda x: x + 11)
3.4 批量更改列名
df.rename(columns=lambda x: x + '_1')
3.5 设置姓名列为行索引
df.set_index('姓名')
3.6 检查哪些列包含缺失值
df.isnull().any()
3.7 删除本列中空值的行
df[df['数学'].notnull()]
df[~df['数学'].isnull()]
3.8 去掉某行、某列
# 去掉某行
df.drop(0, axis=0)
# 去掉某列
df.drop('英语', axis=1)
3.9 删除所有包含空值的行
df.dropna()
删除了第1、3、5、7行。
3.10 删除行里全都是空值的行
df.dropna(how = 'all')
仅仅删除了第7行。
3.11 保留至少有n个非空值的行
df.dropna(thresh=n)
3.12 保留至少有11个非空值的列
df.dropna(axis=1,thresh=n)
3.13 行数据向下填充
df.fillna(method = 'ffill')
3.14 列数据向右填充
df.fillna(method = 'ffill',axis=1)
3.15 用0替换DataFrame对象中所有的空值
df.fillna(0)
3.16 强制转换数据类型
df_t1 = df.dropna()
df_t1['语文'].astype('int')
注意空值不进行转换。
3.17 查看有多少不同的城市
df['城市'].unique()
array(['南京', '广州', '上海', '海口', '深圳', '重庆', nan, '杭州', '宁波', '苏州'],
dtype=object)
3.18 单值替换(整个表格替换)
将苏州替换为南京:
df.replace('苏州', '南京')
3.19 多值替换
将苏州替换为南京、广州替换成深圳:
# 方法一
df.replace({'苏州':'南京','广州':'深圳'})
# 方法二
df.replace(['苏州','广州'],['南京','深圳'])
3.20 多值替换单值
将广州和深圳替换为东莞:
df.replace(['深圳','广州'],'东莞')
3.21 替换某列中的值(单列替换)
df['城市'] = df['城市'].replace('海口', '三亚')
3.22 拆分某列,生成新的Dataframe
将姓名列拆分为学号列和姓名列:
df1 = df['姓名'].str.split('-',expand=True)
df1.columns = ['学号','姓名']
df1['性别'] = df['性别']
df1['语文'] = df['语文']
df1['数学'] = df['数学']
df1['英语'] = df['英语']
df1['城市'] = df['城市']
df1['省份'] = df['省份']
df1
3.23 某一列类型转换,注意该列类型要一致,包括(NaN)
df1.dropna(inplace = True)
df1['语文'] = df1['语文'].apply(int)
未完待续。。。
文章首发:微信公众号 “Python当打之年” ,Python编程技巧推送,希望大家可以喜欢。
以上就是本期为大家整理的全部内容了,赶快练习起来吧,原创不易,喜欢的朋友可以点赞、收藏也可以分享(注明出处)让更多人知道。
推荐阅读
- 👨🎓 【Pandas+Pyecharts | 山东省高考考生数据分析可视化】
- 🚗 【Pandas+Pyecharts | 40000+汽车之家数据分析可视化】
- 🛒 【Pandas+Pyecharts | 20000+天猫订单数据可视化】
- 🏠 【Pandas+Pyecharts | 广州市已成交房源信息数据可视化】
- 🏫 【Pandas+Pyecharts | 考研信息数据可视化】
- 💸 【Pandas+Pyecharts | 某平台招聘信息数据可视化】
- 🏥 【Pandas+Pyecharts | 医院药品销售数据可视化】
- 💰️ 【Pyecharts | 比特币每日价格动态可视化】
- 🥮 【可视化 | Python中秋月饼销量分析,这些口味才是yyds!】
- 🎦 【Pyecharts | 《白蛇2:青蛇劫起》20000+数据分析可视化】
- 💑 【Pyecharts | 历年全国各地民政局登记数据分析+可视化】
- 🌏 【Pandas+Pyecharts | 全国热门旅游景点数据分析+可视化】
- 🏆 【Pandas+Pyecharts | 2020东京奥运会奖牌数据可视化】
- 🏹 【Pandas常用基础操作指令汇总 】
- 🎯 【pandas + pyecharts | ADX游戏广告投放渠道综合分析】
- 🕔 【Schedule + Pyecharts | 时间序列图(动态轮播图)】
- 🏠 【Pandas+Pyecharts | 北京某平台二手房数据分析+可视化】
- 🏫 【Pandas+Pyecharts | 2021中国大学综合排名分析+可视化】
- 🎦 【爬虫 | Python爬取豆瓣电影Top250 + 数据可视化】
- 📡 【技巧 | Python创建自己的高匿代理IP池】