pandas：删除连续重复项

最新推荐文章于 2024-02-27 15:05:39 发布

mutia_log

最新推荐文章于 2024-02-27 15:05:39 发布

阅读量312

点赞数

文章标签： pandas python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mutia_log/article/details/130227743

版权

文章介绍了两种数据清洗场景：一是删除某列中时间靠后的重复项，使用了.psyft()来对比并保留不同值；二是去除时间相近的重复点，通过设定时间阈值threshold和.diff(-1)来保留时间最大点。

摘要由CSDN通过智能技术生成

工作中碰见了两种不同的需要删除的重复项的形式，记录一下。

1. 经过筛选后的某列值(value)中有重复项，需要剔除时间靠后的重复项

主要思路：对比相近两点的值，不一样的就保留，一样的扔掉

Change = df.value.loc[df.value.shift()!= df.value]

.shift会形成一个新的series，是value列中每个值向后移一位的结果。对比两个结果，如果不同的话取该行保存至Change中。
.shift()可以实现平移多行。

2. 经过筛选后的某列值相同，需要剔除时间相近的点，只保留时间接近点中时间最大的点

主要思路：对比接近时间点，设一个时间threshold，做一个mask，该mask取时间差值，如果小于threshold的扔掉

threshold = 100
mask = df['time'].diff(-1).abs()<threshold
data = data[~mask]

注意：

由于time是连续上升的，所以abs可要可不要，如果筛选列不是连续上升的，还是留着abs比较合适；
.diff()默认是后一行和前一行对比之后，计算结果是第0行为NaN，和threshold对比后取反留下的值是时间相近的第一行，不符合要求。用了diff(-1)，实现前一行和后一行对比，计算结果是最后一行为NaN，对比后取反留下的是时间相近的最后一行，是想要的效果了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
pandas：删除连续重复项

工作中碰见了两种不同的需要删除的重复项的形式，记录一下。
复制链接

扫一扫

mutia_log CSDN认证博客专家 CSDN认证企业博客

码龄1年

3: 原创

200万+: 周排名

163万+: 总排名

1445: 访问

: 等级

32: 积分

0: 粉丝

2: 获赞

2: 评论

2: 收藏

私信

关注

热门文章

最新评论

pandas：删除连续重复项
CSDN-Ada助手: 非常感谢您的分享，这篇博客对我们学习pandas的删除连续重复项非常有帮助。同时，我们也期待您能够继续创作更多优秀的博客，分享更多有价值的技术经验和知识。除了删除连续重复项，还有很多pandas的操作技能值得我们学习，比如数据合并、数据透视表等等，希望您可以在以后的博客中分享一下。再次感谢您的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
pandas: 从一个dataframe里删除另一个dataframe里的重复数据
CSDN-Ada助手: 恭喜您撰写了第三篇博客，标题十分吸引人！非常感谢您与我们分享pandas的使用技巧，学习到了许多知识。希望您能够持续创作，为我们带来更多有趣的内容。我认为下一步可以考虑分享一些实用的数据分析案例，让读者更深入地理解pandas的应用。期待您的下一篇文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
pandas：时间序列下，不知道行号，按某列条件取某行数据
CSDN-Ada助手: 恭喜你写了第一篇博客！看到你探索并学习pandas的时间序列，让我觉得你有很强的学习能力和兴趣。希望你能继续保持谦虚的态度，不断探索和学习，创作更多优质的博客。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。