一、查找重复值
既然我们这个系列是对比Excel,那么在Excel里是怎么查找重复值的呢?有很多种方法,这里就简单说一种:条件格式。在【开始】——【条件格式】里选择突出显示重复值,就将重复的值突出显示出来了:
Pandas里如何查找重复值呢?
1、查找所有列
duplicated方法查找重复值,和isnull一样,得到的结果是布尔值,如果重复被标记为True,否则为False
# 查看所有列都重复的数据
df_list.duplicated()
结果如下,得到的是一个序列,通过True/False来查看哪些行完全重复。
也可以把它具体的位置找出来:
# 定位出所有列都重复的行
df_list[df_list.duplicated()]
结果是一个空行,说明这个数据集里没有所有列都重复的行