使用pandas在处理csv或者xsl数据时,往往数据中会出现重复项,这时就需要去除重复项,在进行其他操作。
我的应用场景是去除所有列都重复的数据行
data.drop_duplicates(inplace=True)
使用drop_duplicates函数进行重复项的删除,inplace参数代表是在原来的数据上进行操作还是建立一个新的副本,还可以传入依照去重的列名(即依照一列或几列进行去重)
这篇笔记所想要记录的重点是,我在进行重复数据删除后,进行了列的concat 明明是相同长度的列concat时却出现了错位现象。
至此,我才发现,drop_duplicates删除重复项的同时,index还是原来的index,即原来是1,2,3,4当删除第三行时变为1,2,4 不会自动重新排序。因此在concat时,列的拼接由于是根据index来的,就会出现错位现象
data = data.reset_index(drop=True)
使用reset_index函数来进行重新index