【SQL优化】使用子查询可提升 COUNT DISTINCT

最新推荐文章于 2024-07-30 09:01:15 发布

csdn_hnhk

最新推荐文章于 2024-07-30 09:01:15 发布

阅读量2k

点赞数 1

分类专栏： SQL优化文章标签：索引 SQL

本文链接：https://blog.csdn.net/lml282518588/article/details/46225299

版权

本文探讨了如何使用子查询优化SQL中的COUNT DISTINCT操作，以提高查询性能。通过先聚合再JOIN以及缩小数据集的方法，显著减少了查询时间。在大数据集上，这种方法能提供更快更准确的结果，尤其是在基数较小的情况下。

摘要由CSDN通过智能技术生成

Count distinct是SQL分析时的祸根，因此它是我第一篇博客的不二选择。

首先：如果你有一个大的且能够容忍不精确的数据集，那像HyperLogLog这样的概率计数器应该是你最好的选择。（我们会在以后的博客中谈到HyperLogLog。）但对于需要快速、精准答案的查询，一些简单的子查询可以节省你很多时间。

让我们以我们一直使用的一个简单查询开始：哪个图表的用户访问量最大？

select 
  dashboards.name, 
  count(distinct time_on_site_logs.user_id)
from time_on_site_logs 
join dashboards on time_on_site_logs.dashboard_id = dashboards.id
group by name 
order by count desc

首先，我们假设user_id和dashboard_id上已经设置了索引，

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

csdn_hnhk

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hive之count (distinct)剖析与优化

KGC的博客

04-11

3017

市场部小姐姐：我的sql为啥这么慢呀？

mysql的count_MySQL中count的用法

weixin_36382999的博客

01-18

274

1 row in set, 1 warning (0.00 sec)这样的好处是写法简单，用的是 MySQL 自己的语法。缺点也有，大概有两点：1.sql_calc_found_rows 是全表扫。2. found_rows() 函数是语句级别的存储，有很大的不确定性，所以在 MySQL 主从架构里，语句级别的行级格式下，从机数据可能会不准确。不过行记录格式改为 ROW 就 OK。所以最大的缺点...

参与评论您还未登录，请先登录后发表或查看评论

优化调优：Count(DISTINCT)去重统计

热门推荐

eagle89的专栏

09-16

3万+

如何提升自身sql效率，更快得到想要的数据，是每一个使用sql的同学都需要学习和关注的事情。 sql作为面向大众的数据提取工具，除了研发、数据分析师，产品经理及业务运营同学也都有应用需求。只要sql无语法错误，保持等待，或长或短都是可以输出结果的。但是在数据量庞大或数据逻辑复杂时，或碰上线上资源紧张，或者好不容易等了3小时、结果发现数据有点异常需要修改后重跑，不知道有没有同学有相同的经历。低效是每位同学都不乐见的，而避免这个问题就要求我们学习优化sql的方法，从而减少自己等数的焦虑时光。而其中最常

分析MySQL中优化distinct的技巧

12-15

这里的子查询`SELECT DISTINCT(nick) FROM user_access`起到了关键作用。MySQL的优化器将`DISTINCT`操作转换为`GROUP BY`，使得查询在利用索引分组后，仅扫描一次所需的`nick`值。在新的执行计划中，`Using index ...

SQL select distinct的使用方法

09-10

对于多个列的去重计数，可能需要采用其他策略，如创建临时表或子查询。在使用 `DISTINCT` 时，需要注意的一点是，它必须放在 `SELECT` 语句的开头，不能与其他字段混合使用。例如，以下查询是错误的： ```sql ...

SQL 子查询怎么优化？写的很深的这种

q1472750149的博客

11-18

1190

子查询（Subquery）的优化一直以来都是 SQL 查询优化中的难点之一。关联子查询的基本执行方式类似于 Nested-Loop，但是这种执行方式的效率常常低到难以忍受。当数据量稍大时，必须在优化器中对其进行去关联化（Decoorelation 或 Unnesting），将其改写为类似于 Semi-Join 这样的更高效的算子。前人已经总结出一套完整的方法论，理论上能对任意一个查询进行去关联化。本文结合 SQL Server 以及 HyPer 的几篇经典论文，由浅入深地讲解一下这套去关联化的理论体..

clickhouse sql优化，减少查询次数提升效率

weixin_42767581的博客

07-02

2567

业务场景：计算sales/count/sku的值、同比、环比用开窗函数neighbor计算yoy同比和chain环比 //原本计算同比和环比需要使用三条sql聚合后相除 SELECT toStartOfYear(toDate('2020-05-01')) AS date, ROUND(SUM(sales), 2) AS sales, SUM(count) AS count, COUNT(DISTINCT product_id) AS sku FROM mars_rc_roma_wide .

(12)Hive调优——count distinct去重优化

爱吃辣条的博客

02-15

2150

Hive调优——count distinct替换

hive count(distinct )的优化手段

h494411的博客

03-06

384

背景: 近期做了ABT项目,基于公司的营销系统的push渠道去做AB测试,把人群划分为A分支和B分支,每个分支采用不同的算法模型,去查看其对应A分支和B分支带来的uv转化和对应的订单转化.优化手段:优化手段: 将去重指标count(distinct xxxx) 拉出去单独计算, 这一部分去重指标改为group by再向上聚合,再union all 回去.当要统计某一列去重数时，如果数据量很大，count(distinct) 就会非常慢，原因与 group by 类似，

Hive Count Distinct 优化

SmartSi

11-11

1192

我们利用 Hive 对嵌套语句的支持，将原来一个 MapReduce 作业转换为两个作业，在第一阶段选出全部的非重复 id，在第二阶段再对这些已去重的 id 进行计数。本文我们就来分析一个简单语句的优化过程。我们看到作业运行时的 Reduce Task 个数为1，对于统计大数据量时，这会导致最终 Map 的全部输出由单个的 Reduce Task 处理。从上述优化过程我们可以看出，一个简单的统计需求，如果不理解 Hive 和 MapReduce 的工作原理，它可能会比优化后的执行过程多四、五倍的时间。

count(distinct)优化

m0_48714980的博客

12-17

936

当查询数据量很大的时候，count(distinct)会导致内存溢出 SELECT shop_name,COUNT(DISTINCT user_id) AS uv FROM user_visit GROUP BY shop_name; 往往会用下面所替代 SELECT shop_name,COUNT(*) FROM ( SELECT shop_name,user_id FROM user_visit GROUP BY shop_name,user_id) tmp GROUP BY shop_name ;

Hive Sql之 count(distinct ) 优化

南风知我意

05-12

1048

1. 少用count(distinct ) 建议用group by 代替 distinct 。原因为count(distinct)逻辑只会有一个reducer来处理,即使设定了reduce task个数， setmapred.reduce.tasks=100也一样，所以很容易导致数据倾斜。坊间传闻，在面对大数据量时很多大厂都“明令禁止使用distinct”。如sql语句：select count(distinct uid) from users 建议改成： select count(*) fr

Hive--count(distinct)优化

qq_46893497的博客

09-30

3587

前言使用count distinct计算两列联合去重时，若有任何一列为NULL，那么count计数时就会略过这一条。如：count(distinct a,b) 若a或者b中有一个是null，那么这一行就不会参与计数平台：hive、mysql都是如此 id tools name 1 hive a 2 hive b 3 hive NULL 4 NULL m 6 观察以下代码执行结果 ...

关于count(distinct)的优化

05-02

3624

日常统计场景中，我们经常会对一段时期内的字段进行消重并统计数量，SQL语句类似于 SELECT COUNT( DISTINCT id ) FROM TABLE_NAME WHERE ...; 这条语句是从一个表的符合WHERE条件的记录中统计不重复的id的总数。该语句转化为MapRed...

postgresql count(distinct) 优化实践

weixin_41870706的博客

07-09

2714

描述：业务需要查表，该表大约不到四个G，总行数900w条，一个简单的去重的条件查询需要一分钟四十秒，这是不能忍受的。原语句：耗时1m40s select count(DISTINCT sip) from mining_machine where mining_pool='YES'; 优化措施： 1：首先想到加索引，索引顺序也很重要，根据sql解析顺序 where 解析在前。 create index count_sip on public.mining_machine(mining_pool

SQL优化技巧：提升数据库查询性能

"本文主要探讨了SQL优化语句的一些关键策略，包括避免子查询、减少星号(*)的使用、管理连接操作以及利用DECODE函数来提高SQL查询性能。" 在数据库管理和开发中，SQL优化是提升系统性能的关键环节。以下是一些关于...