Pandas(第十四集:DataFrame重复值处理)


1. 使用场景

使用场景,DataFrame样本数据中有重复值的情况
duplicated()函数检测重复的行
drop_duplicated()函数删除重复的行

一般是对行进行操作,列一般不会重复

2. 源数据

def make_df(indexs, columns):
    data = [[str(j) + str(i) for j in columns] for i in indexs]
    df = pd.DataFrame(data=data, index=indexs, columns=columns)
    return df


df = make_df([1, 2, 3, 4], list('ABCD'))
df.iloc[0] = df.iloc[1]  # 定义两个相同的行

在这里插入图片描述

3. duplicated()【函数检测重复的行】

# 判断是否有重复值 True:重复 False:不重复
# 如果第一行与第二行重复,第一行会显示False,第二行显示True
print(df.duplicated())
# keep='first' 保留第一行
# keep='last' 保留最后一行
# keep=False 不保留任何一行,标记所有的重复行
print("=====================================================")
print(df.duplicated(keep=False))

在这里插入图片描述

# 第一行与第二行不完全一样的情况下
df.iloc[0, 3] = 'DDD'
print(df)
# 检查哪几列是重复的
# subset=列表
print(df.duplicated(subset=['A', 'B', 'C']))

在这里插入图片描述

4.drop_duplicated()【删除重复的行】

df.drop_duplicates(subset=['A', 'B', 'C'])
df.drop_duplicates(subset=['A', 'B', 'C'], keep='last')

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Monly21

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值