Pandas数据清洗之数据分组和删除重复数据

数据分组

在Pandas中,你可以使用groupby()函数对DataFrame进行分组。这是一个非常强大的功能,可以基于一个或多个列的值来聚合数据。

这里是一个简单的例子来说明如何使用groupby()

  1. 导入Pandas库:

    import pandas as pd
    
  2. 创建一个示例DataFrame:

    data = {
        'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
        'C': [1, 2, 3, 4, 5, 6, 7, 8],
        'D': [10, 20, 30, 40, 50, 60, 70, 80]
    }
    df = pd.DataFrame(data)
    
  3. 使用groupby()函数进行分组:

    grouped = df.groupby('A')
    
  4. 应用聚合函数:

    • 要计算每个组中C列的总和:
      sum_grouped = grouped['C'].sum()
      
    • 要计算每个组中C列的平均值:
      mean_grouped = grouped['C'].mean()
      

如果你想要基于多列进行分组,只需将列名放在一个列表里即可:

grouped_multi = df.groupby(['A', 'B'])

你可以根据需要选择不同的聚合函数,例如sum(), mean(), count(), min(), max()等。

删除重复数据

在Pandas中,删除DataFrame中的重复行可以通过drop_duplicates()方法来实现。这个方法提供了很多选项来定制你如何处理重复的数据。

以下是一些基本用法:

示例代码:

  1. 导入Pandas库:

    import pandas as pd
    
  2. 创建一个示例DataFrame:

    data = {
        'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
        'C': [1, 2, 3, 4, 5, 6, 7, 8],
        'D': [10, 20, 30, 40, 50, 60, 70, 80]
    }
    df = pd.DataFrame(data)
    
  3. 删除重复行:

    • 删除所有列都相同的行:

      df_unique = df.drop_duplicates()
      
    • 只考虑特定列进行去重:

      df_unique = df.drop_duplicates(subset=['A', 'B'])
      
    • 保留最后一次出现的重复行:

      df_unique = df.drop_duplicates(keep='last')
      
    • 不保留任何重复行(即删除所有重复行):

      df_unique = df.drop_duplicates(keep=False)
      
  4. 查看结果:

    print(df_unique)
    

参数解释:

  • subset=None: 指定要检查哪些列是否存在重复项。默认为 None,表示检查所有列。
  • keep='first': 指定保留哪个版本的重复项。默认为 'first',表示保留第一次出现的重复项;也可以设置为 'last' 以保留最后一次出现的重复项;如果设置为 False,则删除所有重复项。
  • inplace=False: 如果设置为 True,则直接在原DataFrame上修改并返回 None。如果设置为 False(默认),则返回一个新的DataFrame。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知识的宝藏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值