greenplum去重问题

最新推荐文章于 2022-01-10 20:43:06 发布

天心有情

最新推荐文章于 2022-01-10 20:43:06 发布

阅读量2.6k

点赞数

分类专栏： Greenplum 文章标签： greenplum去重

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_35045195/article/details/77847149

版权

Greenplum 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近一直为greenplum去重问题烦心，原本以为很简单的一个问题，使用distinct就可以解决，但是实际操作起来却发现并没有那么简单。还是请教了一些大神才解决这个问题，于是心想记录下来。下面就说说大神是怎么做的吧。

1、确定重要字段

假设你的字段有很多，但是你不知道哪些字段比较重要的（使用这些字段可以区分不行同的数据），那么你就需要逐一检验。

如：

select a,b,count(*) from C group by a,b having count(*)>1;

这里的a，b为你的字段名，C为你的表名，然后查看选出了多少数据，如果你不想顺便查看选出的数据，那就直接使用

select count(*) from (select a,b,count(*) from C group by a,b having count(*)>1)a;

然后你逐渐的添加字段，直到选出的数据基本趋于稳定为止。

2、新建一个表，用来存储重复的数据。

这里我们就可以选择几个重要的字段，把数据库中的重复数据导入到一个新的表中。如我们选择a，b字段

select m.* into C2 from 
(select a,b,count(*) from C group by a,b having count(*)>1) n,C m where m.a=n.a and 
m.b=n.b;

3、从表中删除选出导表C2的数据

Delete from C where (a,b) in (select a,b from C2);

4、从C2表中删除重复的数据。(假设你已经筛选出了重要的字段为a,b,d,e,f,g)

delete from C2 m where (gp_segment_id, ctid)  not in (select gp_segment_id, min(ctid) from C2 n group by gp_segment_id,n.a,n.b,n.d,n.e,n.f,n.g);

5、把数据导回大表C

Insert into C select * from C2;

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

天心有情 CSDN认证博客专家 CSDN认证企业博客

码龄8年

请填写具体企业名称、岗位名称

105: 原创

2万+: 周排名

109万+: 总排名

33万+: 访问

: 等级

3664: 积分

3049: 粉丝

146: 获赞

88: 评论

311: 收藏

私信

关注

热门文章

分类专栏

区块链 1篇
dolphinscheduler 5篇
Spark学习之路-思想 5篇
Spark学习之路-源码 14篇
操作系统 1篇
CDH 2篇
linux 2篇
Spark 29篇
SparkRPC 8篇
hadoop 9篇
scala 8篇
Zookeeper 1篇
hive 6篇
scrapy 2篇
HBase 5篇
HDFS 4篇
java 12篇
neo4j 4篇
kafka 2篇
机器学习数据集 1篇
spark机器学习 1篇
坑爹那回事 24篇
图解大数据 3篇
图数据库 3篇
Greenplum 2篇
SparkGraphX 1篇

最新评论

Could not find acceptable representation 原因探究
spum: 你这个重写就离谱，正确是遍历，改变list里面的对应的转换器对象，不是让你重新把整个list覆盖，springboot里面的转换器已经很全了，你把list覆盖掉自己添加？？而且你这里也没添加全，正确的是压根不需要你去添加list，只需要去遍历他
scala中extends和with的使用
weixin_45848850: 依托答辩
dolphinscheduler源码环境配置
789请问: 还是报错，大佬: org.apache.maven.model.building.ModelBuildingException: 1 problem was encountered while building the effective model for org.apache.dolphinscheduler:dolphinscheduler-registry-zookeeper:2.0.0 [ERROR] Non-resolvable import POM: Could not transfer artifact org.springframework.boot:spring-boot-starter-parent:pom:2.1.18.RELEASE from/to central (http://repo.maven.apache.org/maven2): Failed to transfer http://repo.maven.apache.org/maven2/org/springframework/boot/spring-boot-starter-parent/2.1.18.RELEASE/spring-boot-starter-parent-2.1.18.RELEASE.pom. Error code 501, HTTPS Required @ org.apache.dolphinscheduler:dolphinscheduler:2.0.0, F:\99code\webHt\Java\dolphinscheduler\apache-dolphinschedulerSrc\pom.xml, line 171, column 25 at org.apache.maven.model.building.DefaultModelProblemCollector.newModelBuildingException(DefaultModelProblemCollector.java:195) at org.apache.maven.model.building.DefaultModelBuilder.build(DefaultModelBuilder.java:419) at org.apache.maven.model.building.De
Neo4j性能测试
weixin_46040059: 明白了，多谢啦
Neo4j性能测试
天心有情: 是的，用的是shell查询，服务也需要反复关闭，预热就是提前查询一次，第二次查询，第一次查询无论在哪查询一样的

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

天心有情 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。