pandas中drop_duplicates函数的用法

drop_duplicates() 函数是 Pandas 中用于删除 DataFrame 中重复行的函数。它会返回一个去除重复行的新 DataFrame。该函数主要用于数据清洗和数据去重操作。

下面是 drop_duplicates() 函数的基本语法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ...)

 

其中的参数含义如下:

  • subset:用于指定要考虑的列的子集,即在哪些列上查找重复行,默认为 None,表示在所有列上查找重复行。
  • keep:指定保留哪个重复行,默认为 'first',表示保留第一个出现的重复行;可选值还包括 'last'(保留最后一个出现的重复行)和 False(删除所有重复行)。
  • inplace:指定是否在原地修改 DataFrame,即是否直接修改原始对象而不返回副本,默认为 False

下面是一些示例说明 drop_duplicates() 函数的用法:

假设我们有以下 DataFrame:

删除所有重复行

# 删除所有重复行
df_deduplicated = df.drop_duplicates()
print(df_deduplicated)

根据指定列删除重复行

# 根据列 'A' 删除重复行
df_deduplicated = df.drop_duplicates(subset='A')
print(df_deduplicated)

 根据多列删除重复行

# 根据列 'A' 和 'B' 删除重复行
df_deduplicated = df.drop_duplicates(subset=['A', 'B'])
print(df_deduplicated)

保留最后一个重复行

# 保留最后一个重复行
df_deduplicated = df.drop_duplicates(keep='last')
print(df_deduplicated)

通过 drop_duplicates() 函数,你可以轻松地从 DataFrame 中删除重复行,保持数据的一致性和准确性。

pandasdrop_duplicates函数用于删除DataFrame或Series的重复行。它返回一个新的DataFrame或Series,其仅包含不重复的行。 在DataFrame上使用drop_duplicates函数时,可以指定一个或多个列作为参考列。如果指定了参考列,则只有在指定的列上的值都相同时,才会被视为重复行。 下面是drop_duplicates函数的基本语法: ```python DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) ``` 其,参数说明如下: - subset:可选参数,用于指定要考虑的列。默认值为None,表示考虑所有列。 - keep:可选参数,用于指定保留哪个重复行。可选值为'first'(保留第一个出现的重复行),'last'(保留最后一个出现的重复行),False(删除所有重复行)。默认值为'first'。 - inplace:可选参数,用于指定是否在原地修改数据。如果设置为True,则会直接修改原始DataFrame或Series,而不是返回一个新的对象。默认值为False。 下面是一个示例: ```python import pandas as pd # 创建一个DataFrame data = {'A': [1, 2, 2, 3, 4], 'B': ['a', 'b', 'b', 'c', 'd']} df = pd.DataFrame(data) # 删除重复行 df.drop_duplicates(inplace=True) print(df) ``` 输出结果如下: ``` A B 0 1 a 1 2 b 3 3 c 4 4 d ``` 在这个示例,原始的DataFrame有两个重复行(索引为2和4),通过使用drop_duplicates函数,我们删除了这两个重复行,并得到一个新的DataFrame。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值