pg数据库查询重复数据并可识别空数据列重复(二)--优化

最新推荐文章于 2024-07-07 07:41:56 发布

Jess_eagle

最新推荐文章于 2024-07-07 07:41:56 发布

阅读量1.4k

点赞数 1

分类专栏：数据库文章标签： postgresql 重复数据查询数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011099093/article/details/78606548

版权

在上一篇文章中，实现了查询重复数据与删除多余重复数据的sql编写：http://blog.csdn.net/u011099093/article/details/78596034；

但是经过导入百万数据测试，查询语句直接卡住没有结果，于是又花了一天时间对sql进行优化，在借鉴了如下地址的方法后，编写出优化后的查重及去重sql：

https://yq.aliyun.com/articles/68224#15

优化查询重复数据：SELECT A,B,C,D,E FROM( SELECT A,B,C,D,E,COUNT(*) OVER(PARTITION BY A,B,C )AS tmp FROM TABLE WHERE CONDITION) t WHERE t.tmp>=2;

优化处理重复数据：
DELETE FROM TABLE WHERE ID NOT IN(SELECT ID FROM
(SELECT MIN(ID) ID,A,B,C FROM TABLE WHERE CONDITION GROUP BY A,B,C HAVING COUNT(*)>1) C)
AND ID IN( SELECT ID FROM
(SELECT ID,COUNT(*) OVER(PARTITION BY A,B,C) AS tmp FROM TABLE WHERE CONDITION)t WHERE t.tmp>=2);

对于over partition的用法我真的不是很了解，而上述地址中对重复数据清洗讲的比较详细，有兴趣的同学可移步去看看。

<

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。