『Python - Pandas』drop_duplicates方法失效的探索及一种解决方法

最新推荐文章于 2024-05-31 17:42:39 发布

Python捞数人

最新推荐文章于 2024-05-31 17:42:39 发布

阅读量1.8k

点赞数 1

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/m0_47149835/article/details/128159227

版权

Python 专栏收录该内容

21 篇文章 2 订阅

订阅专栏

最近在处理一个 $1.4$ 万行数据的 $E x c e l$ 文件时，发现总是有 $70$ 行重复数据，总结下发现的过程和解决办法
$e n v$ : $\rightarrow$ $p a n d a s :$ 1.2.2

解决方法

df.to_excel('output.xlsx')
df = pd.read_excel('output.xlsx')
df.drop_duplicates(subset=column_lis, inplace=True)
df.to_excel('output.xlsx')

发现异常的过程

根据客户的需求，我需要使用某几个 $c o l u m n$ 去除重复值
客户拿到我去重后的 $E x c e l$ ，反映还是有重复值
我去 $D e b u g$ ，确认 $P y t h o n$ 确实执行了去重代码，也就是final_output.drop_duplicates(columns_for_removing_duplicate_value, inplace=True)
既然客户在 $E x c e l$ 中发现了重复值，那我也先把数据导出到 $E x c e l$ --> final_output.to_excel(output_file_path, index=False)
重新读取一次df = pd.read_excel(output_file_path)，记录下这时候len(df) == 14397，然后再次执行去重代码df.drop_duplicates(columns_for_removing_duplicate_value, inplace=True)，发现len(df)变成14327了，去重成功

寻找问题根源

既然 $P y t h o n$ 确实执行了去重代码，那么我觉得可能有两个地方会导致这种现象：①drop_duplicates方法并不完善 ②在对 $E x c e l$ 的读取和写入时，某些数据发生了变化，和我们的预期有差异

但由于第二次去重成功了，所以我暂时不管可能性①，先研究可能性②

通过在to_excel时保留 $i n d e x$ ，我定位到了其中的两个重复的行，仔细研究后发现，在用于去重的 $c o l u m n$ 中(columns_for_removing_duplicate_value)，有一列(将它命名为 $col\_1$ 吧)的全是数值型，其余列都是str类型