『Python - Pandas』drop_duplicates方法失效的探索及一种解决方法

最近在处理一个 1.4 1.4 1.4 万行数据的 E x c e l Excel Excel 文件时,发现总是有 70 70 70 行重复数据,总结下发现的过程和解决办法
e n v env env: → \rightarrow p a n d a s : pandas: pandas: 1.2.2




解决方法

df.to_excel('output.xlsx')
df = pd.read_excel('output.xlsx')
df.drop_duplicates(subset=column_lis, inplace=True)
df.to_excel('output.xlsx')




发现异常的过程

  1. 根据客户的需求,我需要使用某几个 c o l u m n column column 去除重复值
  2. 客户拿到我去重后的 E x c e l Excel Excel,反映还是有重复值
  3. 我去 D e b u g Debug Debug,确认 P y t h o n Python Python 确实执行了去重代码,也就是final_output.drop_duplicates(columns_for_removing_duplicate_value, inplace=True)
  4. 既然客户在 E x c e l Excel Excel 中发现了重复值,那我也先把数据导出到 E x c e l Excel Excel --> final_output.to_excel(output_file_path, index=False)
  5. 重新读取一次df = pd.read_excel(output_file_path),记录下这时候len(df) == 14397,然后再次执行去重代码df.drop_duplicates(columns_for_removing_duplicate_value, inplace=True),发现len(df)变成14327了,去重成功


寻找问题根源

既然 P y t h o n Python Python 确实执行了去重代码,那么我觉得可能有两个地方会导致这种现象:①drop_duplicates方法并不完善 ②在对 E x c e l Excel Excel 的读取和写入时,某些数据发生了变化,和我们的预期有差异


但由于第二次去重成功了,所以我暂时不管可能性①,先研究可能性②


通过在to_excel时保留 i n d e x index index,我定位到了其中的两个重复的行,仔细研究后发现,在用于去重的 c o l u m n column column 中(columns_for_removing_duplicate_value),有一列(将它命名为 c o l _ 1 col\_1 col_1 吧)的全是数值型,其余列都是str类型


于是我拿出这一列数值继续查看 --> lis = [(i, type(i)) for i in final_output['col_1'].tolist()]


并通过索引重新定位到重复的那两行,终于发现为什么去重会失效(这里可以排除数值类型引起问题的可能,因为它们类型均为float)
在这里插入图片描述

原来是因为在 E x c e l Excel Excel 中应为 − 1239.45 -1239.45 1239.45 的数字被读成了 − 1239.4499999999998 -1239.4499999999998 1239.4499999999998,导致这两行被 p a n d a s pandas pandas 视为非重复行


然后我继续追根溯源,找到 − 1239.4499999999998 -1239.4499999999998 1239.4499999999998 所在的源文件,发现在 E x c e l Excel Excel 中改数值显示为 − 1239.45 -1239.45 1239.45 在这里插入图片描述
在这里插入图片描述

通过上面两张截图,就能判定 --> 问题和pd.read_excel有关,但是为什么to_excel后重新加载又能解决这个问题呢

通过对比源文件以及to_excel生成的 E x c e l Excel Excel 文件,我发现根源问题也与 E x c e l Excel Excel 的类型有关,因为源文件的类型为Microsoft Excel 97-2003 Worksheet (.xls),而我to_excel输出的文件类型为.xlsx

也就是说,对于其中一个重复值,它经历了以下过程才被正确加载,所以才能成功去除所有重复值(相当于利用xlsx给所有被错误加载的数值来一次标准化
在这里插入图片描述


所以针对这种由 E x c e l Excel Excel 类型导致的drop_duplicates失效,可以使用文章开头展示的代码解决

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值