drop_duplicates()
函数是 Pandas 中用于删除 DataFrame 中重复行的函数。它会返回一个去除重复行的新 DataFrame。该函数主要用于数据清洗和数据去重操作。
下面是 drop_duplicates()
函数的基本语法:
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ...)
其中的参数含义如下:
subset
:用于指定要考虑的列的子集,即在哪些列上查找重复行,默认为None
,表示在所有列上查找重复行。keep
:指定保留哪个重复行,默认为'first'
,表示保留第一个出现的重复行;可选值还包括'last'
(保留最后一个出现的重复行)和False
(删除所有重复行)。inplace
:指定是否在原地修改 DataFrame,即是否直接修改原始对象而不返回副本,默认为False
。
下面是一些示例说明 drop_duplicates()
函数的用法:
假设我们有以下 DataFrame:
删除所有重复行
# 删除所有重复行
df_deduplicated = df.drop_duplicates()
print(df_deduplicated)
根据指定列删除重复行:
# 根据列 'A' 删除重复行
df_deduplicated = df.drop_duplicates(subset='A')
print(df_deduplicated)
根据多列删除重复行:
# 根据列 'A' 和 'B' 删除重复行
df_deduplicated = df.drop_duplicates(subset=['A', 'B'])
print(df_deduplicated)
保留最后一个重复行:
# 保留最后一个重复行
df_deduplicated = df.drop_duplicates(keep='last')
print(df_deduplicated)
通过 drop_duplicates()
函数,你可以轻松地从 DataFrame 中删除重复行,保持数据的一致性和准确性。