Pandas(第十四集：DataFrame重复值处理)

最新推荐文章于 2024-07-08 22:12:38 发布

Monly21

最新推荐文章于 2024-07-08 22:12:38 发布

阅读量1.4k

点赞数

分类专栏： Pandas 文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/jhgfvjfggff_fds_f/article/details/130602381

版权

Pandas 专栏收录该内容

18 篇文章 5 订阅

订阅专栏

1. 使用场景

使用场景，DataFrame样本数据中有重复值的情况
duplicated()函数检测重复的行
drop_duplicated()函数删除重复的行

一般是对行进行操作，列一般不会重复

2. 源数据

def make_df(indexs, columns):
    data = [[str(j) + str(i) for j in columns] for i in indexs]
    df = pd.DataFrame(data=data, index=indexs, columns=columns)
    return df


df = make_df([1, 2, 3, 4], list('ABCD'))
df.iloc[0] = df.iloc[1]  # 定义两个相同的行

在这里插入图片描述

3. duplicated()【函数检测重复的行】

# 判断是否有重复值 True：重复 False：不重复
# 如果第一行与第二行重复，第一行会显示False，第二行显示True
print(df.duplicated())
# keep='first' 保留第一行
# keep='last' 保留最后一行
# keep=False 不保留任何一行，标记所有的重复行
print("=====================================================")
print(df.duplicated(keep=False))

在这里插入图片描述

# 第一行与第二行不完全一样的情况下
df.iloc[0, 3] = 'DDD'
print(df)
# 检查哪几列是重复的
# subset=列表
print(df.duplicated(subset=['A', 'B', 'C']))

在这里插入图片描述

4.drop_duplicated()【删除重复的行】

df.drop_duplicates(subset=['A', 'B', 'C'])
df.drop_duplicates(subset=['A', 'B', 'C'], keep='last')

在这里插入图片描述

Monly21

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pandas(第十四集：DataFrame重复值处理)

Pandas(第十四集：DataFrame重复值处理)
复制链接

扫一扫

专栏目录