numpy、pandas实用总结(遍历、重复值、缺失值、异常值、数据过滤、数据清洗)

本文总结了Pandas在DataFrame遍历、数据重复与缺失值处理、异常值处理、数据过滤及清洗方面的常用方法。包括使用df.duplicated()和df.drop_duplicates()检查与去除重复值,df.isnull().any()和df.fillna()处理缺失值,以及如何删除或修改异常值。此外,还介绍了数据过滤的不同方式和四分位数数据清洗的步骤。
摘要由CSDN通过智能技术生成
前言
  • 最近工作中经常实用pandas,然而,却发现自己对于pandas的掌握并没有想象中的好,很多pandas的函数和用法,自己都不是特别的熟练,特此总结一下最近经常会使用的pandas用途和函数,增强记忆。
pandas用途之DataFrame遍历
  • 按照行对于DataFrame进行遍历,得到每一行,然后对于行进行操作,取每一列的单个数据
    for index,row in df.iterrows():
    	print(row['列名'],row['列名'])
    
  • 如果需要得到每一行的每列的数据进行计算,则需要row[‘列名’].iloc[0]取出行中的单个元素
  • 因为,单纯的取出row[‘列名’]是Series类型,会带有Series类型的一些索引等内容。
pandas用途之DataFrame数据查询重复,去除重复
  • DataFrame数据查询和取出重复元素,都是根据df.duplicated来实现的
  • 使用df.duplicated()来查询重复值,返回布尔类型的值
    • 参数:subset,设置判断重复的时候,按照哪些列进行判断。
      • 可以使用列表的方式设置,subset = [“列a”,“列b”]
      • 可以使用字符串的方式定义,subset = “列a”
    • 参数:keep,设置判断重复的时候,保留项
      • keep = “first”, 保留第一项
      • keep = “last”, 保留最后一项
      • keep = False,一个都不保留
  • 使用df.drop_duplicates()来删除重复值
    • 参数:subset,设置判断重复的时候,按照哪些列进行判断。
      • 可以使用列表的方式设置,subset = [“列a”,“列b”]
      • 可以使用字符串的方式定义,subset = “列a”
    • 参数:keep
  • 4
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值