大话 Python:python 操作 excel 系列 -- 数据清洗

python 在对 excel 操作的同时,前面文章中说了数据的读取、插入、简单分析,还有一个非常重要的点就是数据清洗。那什么叫数据清洗,说白了就是去除数据文本中的垃圾值,比如:存在的空值、多余的空格、数据格式等等的处理。

1,导入 python 库、读取 excel 数据
# 导入 pandas 库
import pandas as pd
# read_excel() 读取 excel 数据
# DataFrame() 将读取到的数据转换为 DataFrame 数据
df = pd.DataFrame(pd.read_excel('data.xlsx'))
2,数据清洗(去除空值)
# dropna() 函数去除 df 数据表中存在空值的所有行
df.dropna(how='any')
# mean() 函数计算 age 字段所在列的平均值
age_pre = df['age'].mean()
# 使用 fillna() 函数对存在的空值进行填充,将 age_pre 的值填充到字段为空的值内面
df['age'].fillna(age_pre)
3,数据清洗(清除字段中的空格)
# 清除字段的空格
df['name'] = df['name'].map(str.strip)
4,数据清洗(对某个列进行重命名)
# rename() 函数对列进行重命名
df.rename(columns={'name': 'name_new'})
5,数据清洗(清除某一列中的重复值)
# 从前往后查找某个列中的重复值,如果存在则清除后面所出现的重复值
df['name'].drop_duplicates()
# 从后往前查找某个列中的重复值,如果存在则清除前面所出现的重复值
df['city'].drop_duplicates(keep='last')
# 两种正好是按照相反的清除顺序
6,数据清洗(数据值替换)
# 将某一列中的具体值进行替换
df['name'].replace('laow', 'lwsbc')

更多精彩请关注本系列老王说编程 >>>

在这里插入图片描述

  • 15
    点赞
  • 100
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Python 集中营

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值