我本人是个菜鸟,写博客的目的只是记录下我当时碰到的问题以及是怎么解决的,第一次写博客,有什么不对的地方希望大家指正。
废话不多说,我直接贴SQL吧。
select DISTINCT
org_name,
CURRENT_TIME()from(
SELECT org_name,
CURRENT_TIME()
FROM succez_dfdw.fact_zqx_tmp zqx
WHERE NOT EXISTS (SELECT 1 FROM succez_dfdw.dfba3_base_032 qy WHERE zqx.org_name = qy.`key`)
AND zqx.org_name IS NOT NULL
,current_timestamp
from(
SELECT DISTINCT org_name
FROM succez_dfdw.fact_zqx_tmp zqx
WHERE NOT EXISTS (SELECT 1 FROM succez_dfdw.dfba3_base_032 qy WHERE zqx.org_name = qy.`key`)
AND zqx.org_name IS NOT NULL
)x ;
)x ;
我们看上下两个SQL,发现只是把distinct的位置放的不一样,这里的current_time只是生成时间戳显示当前的日期,主要的目的还是去电重复的org_name列。
笔者但是的情况是4个字段,不是现在的两个字段。在当时30W数据量的时候,上面与下面的运行时间相差十几秒,升为一个码农,这是不能容忍的。
但是为什么上面的一条执行的比较慢,下面的一条比较快呢?
这是因为distinct去重语句会默认对结果集进行排序。
打个比方,如果我们在找出幼儿园小朋友身高的发育水平,最好的办法是小朋友们按照升高排序,然后统计身高值与人数值。
此时身高120cm的小朋友会占在一起,身高123cm的小朋友会站在一起。
若此时使用distinct对身高排序,我们只需去重,取120cm的值一次,123cm的值一次。
在数据库中,distinct去重的时候先排序,这种相等的值会放在一起,这样的话就方便去重。
平时无数数据库的前辈告诉我们,distinct,group by ,union 会默认排序,但是自己再写sql的时候稍有不慎就可能犯错。