通过去重进行数据清洗
数据初始
Seqno列去重
查看Seqno列都有哪些值
df['Seqno'].unique() # 查看唯一的值
duplicated方法
duplicated用于从上到下比较指定某一列的值,当这个值第一次出现时,返回False,当这个值和上一个比一样时,返回True
df['Seqno'].duplicated()
drop_duplicates去重复
drop_duplicates方法将会把这一列duplicated方法结果中为True的项删除,False的项保留。在不指定keep的时候,它的值默认为first,表示如果有多个重复的则保留第一个。也可以指定其他的值,比如last。
注意:
df1['Seqno'].drop_duplicates() # 返回一个新的关于Seqno的Serirs
df1.drop_duplicates() # 按照一行四个元素的一致性去重的
df.drop_duplicates(['Seqno']) # 指定按照Seqno这一列的值为基准进行去重