duplicated()
是 Pandas 中 DataFrame
对象的一个方法,用于查找重复的行。该方法返回一个布尔型的 Series
,其中每个元素表示相应行是否是重复行。
例如,假设我们有以下数据帧:
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice'],
'Age': [25, 30, 35, 40, 25]}
df = pd.DataFrame(data)
我们可以使用 duplicated()
方法查找重复的行:
duplicates = df.duplicated()
print(duplicates)
输出结果为:
0 False
1 False
2 False
3 True
4 True
dtype: bool
在这个示例中,第 4 行和第 5 行被标记为重复行,因为它们具有相同的值。
drop_duplicates()
是 Pandas 中 DataFrame
对象的一个方法,用于删除重复的行。该方法返回一个新的数据帧,其中所有重复的行都被删除了。
例如,假设我们有以下数据帧:
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice'],
'Age': [25, 30, 35, 40, 25]}
df = pd.DataFrame(data)
我们可以使用 drop_duplicates()
方法删除重复的行:
df_no_duplicates = df.drop_duplicates()
print(df_no_duplicates)
输出结果为:
Name Age
0 Alice 25
1 Bob 30
2 Charlie 35
3 David 40
在这个示例中,第 4 行和第 5 行被删除了,因为它们与第 0 行具有相同的值。