大数据hive篇--count(distinct xxx)优化写法

最新推荐文章于 2024-07-01 11:30:48 发布

在路上的小y

最新推荐文章于 2024-07-01 11:30:48 发布

阅读量469

点赞数

分类专栏：大数据文章标签：大数据 hive hadoop

本文链接：https://blog.csdn.net/qq_43709558/article/details/126949059

版权

先看一道某互联网公司的面试题：

题目描述
计算每个省份的买家数的sq代码如下:

select
    province 
    ,count(distinct buyer_id)
from orders
where dt = '20211012'
group by province

假设 orders表很大，每天有5千万订单，这个代码会有哪些问题，应该如何处理或者改写代码？

解答：这种写法逻辑上没问题，而它的底层引擎是mapreduce，是分布式计算的，但是在实际业务中如果数据量过大，相同重复的key过多的情况，所以自然会出现数据倾斜这种分布式计算的典型问题，这可能会导致某一个reduce处理的时间过长，如果换成这样的写法：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

在路上的小y

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
大数据hive篇--count(distinct xxx)优化写法

sql优化
复制链接

扫一扫

专栏目录

Hive Count Distinct 优化

SmartSi

11-11

1174

我们利用 Hive 对嵌套语句的支持，将原来一个 MapReduce 作业转换为两个作业，在第一阶段选出全部的非重复 id，在第二阶段再对这些已去重的 id 进行计数。本文我们就来分析一个简单语句的优化过程。我们看到作业运行时的 Reduce Task 个数为1，对于统计大数据量时，这会导致最终 Map 的全部输出由单个的 Reduce Task 处理。从上述优化过程我们可以看出，一个简单的统计需求，如果不理解 Hive 和 MapReduce 的工作原理，它可能会比优化后的执行过程多四、五倍的时间。

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hive篇

微信搜：import_bigdata，大数据领域硬核原创作者

08-12

1453

欢迎关注博客主页：https://blog.csdn.net/u013411339 欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接： 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇 2.

参与评论您还未登录，请先登录后发表或查看评论

Hive之count(distinct xxx)优化写法

蔡政洁的博客

10-13

763

先看一道某互联网公司的面试题：题目描述计算每个首份的买家数的sq代码如下: select province ,count(distinct buyer_id) from orders where dt = '20211012' group by province 假设 orders表很大，每天有5千万订单，这个代码会有哪些问题，应该如何处理或者改写代码？解答：这种写法逻辑上没问题，而它的底层引擎是mapreduce，是分布式计算的，但是在实际业务中如果数据量过大，相同重复的key过

MySQL COUNT函数的使用与优化

最新发布

My_wife_QBL的博客

07-01

1616

COUNT函数用于统计表中满足条件的记录数量。其中，expression可以是列名、常量、表达式或星号（

关于count(distinct)的优化

05-02

3613

日常统计场景中，我们经常会对一段时期内的字段进行消重并统计数量，SQL语句类似于 SELECT COUNT( DISTINCT id ) FROM TABLE_NAME WHERE ...; 这条语句是从一个表的符合WHERE条件的记录中统计不重复的id的总数。该语句转化为MapRed...

sql优化之：count(distinct xxxx)

vic868的专栏

10-08

855

select count(distinct column) from table_name; 这样一条sql在数据量比较大时可能跑的时间很长。可以用：select count(1) from (select column from table_name group by column) 效果可以有所改善

Hive--count(distinct)优化

qq_46893497的博客

09-30

3555

前言使用count distinct计算两列联合去重时，若有任何一列为NULL，那么count计数时就会略过这一条。如：count(distinct a,b) 若a或者b中有一个是null，那么这一行就不会参与计数平台：hive、mysql都是如此 id tools name 1 hive a 2 hive b 3 hive NULL 4 NULL m 6 观察以下代码执行结果 ...

大数据学习之路-Hive

weixin_43441789的博客

03-09

737

Hive1. Hive基本概念1.1 什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较1.4.1 查询语言1.4.2 数据更新1.4.3 执行延迟1.4.4 数据规模2. Hive安装2.1 Hive安装地址2.2 MySql安装2.3 Hive安装部署2.4 Hive元数据配置到MySql2.4.1 拷贝驱动2.4.2 配置Metastore到MySql2.5 启动Hive2.5.1 初始化元数据库2.5.2 启动Hive2.5.

flink sql 知其所以然（十一）：去重不仅仅有 count distinct 还有强大的 deduplication

qq_34608620的博客

11-25

1161

想啥呢，小宝贝，还不三连？？？（关注 + 点赞 + 再看），对博主的肯定，会督促博主持续的输出更多的优质实战内容！！！1.序篇源码公众号后台回复1.13.2 deduplication 的奇妙解析之路获取。下面即是文章目录，也对应到了本文的结论，小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助：背景及应用场景介绍：博主期望你了解到，flink sql 的 deduplication 其实就是 row_number = 1，所以它可以在去重的同时，还能保留原始字段数据来一

小白的大数据入门路——Hive学习笔记

5akura's Blog

08-04

3324

文章目录一、Hive基本概念1.1、什么是Hive1.2、Hive的优缺点1.3、Hive架构原理1.4、Hive对比数据库二、Hive安装2.1、安装包准备2.2、相关配置和启动2.3、本地文件导入Hive2.3.1、Linux本地文件导入2.3.2、HDFS文件导入2.4、安装MySQL2.5、Hive的JDBC访问（了解）2.6、Hive常用交互命令2.7、Hive常见属性配置2.7.1、常用配置参数2.7.2、修改配置的方式三、Hive数据类型3.1、基本数据类型3.2、集合数据类型3.3、数据类型

mysql如何优化大数据量情况下的distinct

yxp20092010的专栏

06-17

4188

在mysql的优化中，有一条是：大量的排序操作影响系统性能，所以尽量减少排序操作。GROUP BY、ORDER BY、 ROLLUP、DISTINCT等都会产生排序。少用DISTINCT！至于DISTINCT为什么效率低上面兄弟们说的已经很明白了，我这里不说了。我主要说一下用什么方法尽量替代DISTINCT。用EXISTS代替DISTINCT。EXISTS 使查询更为迅速，因为RDBMS核心模

count(distinct())效率优化

热门推荐

eagle89的专栏

09-16

2万+

如何提升自身sql效率，更快得到想要的数据，是每一个使用sql的同学都需要学习和关注的事情。 sql作为面向大众的数据提取工具，除了研发、数据分析师，产品经理及业务运营同学也都有应用需求。只要sql无语法错误，保持等待，或长或短都是可以输出结果的。但是在数据量庞大或数据逻辑复杂时，或碰上线上资源紧张，或者好不容易等了3小时、结果发现数据有点异常需要修改后重跑，不知道有没有同学有相同的经历。低效是每位同学都不乐见的，而避免这个问题就要求我们学习优化sql的方法，从而减少自己等数的焦虑时光。而其中最常

数仓|COUNT DISTINCT数据倾斜优化

延宝小白马的博客

03-27

1453

什么是数据倾斜数据倾斜，在MapReduce编程模型中十分常见，就是大量的相同key被分配到一个分区里，造成了个别task运行的非常慢，从而影响了整个任务的执行效率。数据倾斜产生的根本原因是少数Worker处理的数据量远远超过其他Worker处理的数据量，因此少数Worker的运行时长远远超过其他Worker的平均运行时长，导致整个任务运行时间超长，造成任务延迟。数据倾斜的原因当我们看任务进度长时间维持在99%（或100%），查看任务监控页面就会发现只有少量（1个或几个）reduce子任务未

count(distinct xxx) 和 group by 做去重隐藏的坑

欧阳正才的博客

07-11

5427

不说废话，直接上代码。以下查询是基于mysql自带的country,city,countrylanguage三个样例表做的： select count(*) from country union all SELECT count(distinct Code, Name, Continent, Region, SurfaceArea, IndepYear, Population, Life...

Count-Distinct实践: 万亿级数据量任务优化方式

张普的专栏

03-25

2865

join实践:万亿级数据量任务优化历程单字段去重先看一个简单的sql ，pv_id 去重计数SELECT visit_type, count(DISTINCT pv_id) as pv_cnt from exp_table where ds=20220320 group by visit_type;在默认情况下，相同的visit_type 的pv_...

数据库去重汇总 count(distinct xxx) 与distinct ； count（case when ）

yuhui666666的博客

01-09

3319

总括： SELECT T.dept_one as "部门", COUNT(DISTINCT ( CASE WHEN (is_week='1') THEN name ELSE NULL end )) as "周活" FROM (SELECT m.*, s.event_property_code,s.event_property_value FROM ...

mysql查询非重复的行内容,不重复的记录数count(distinct xx)

MengW9的博客

06-05

490

mysql查询非重复的行内容,不重复的记录数count(distinct xx) count去重 id, p_id, p_name , p_content , p_time 1 343 aaa aaaaaa 2012-09-01 2 344 bbb bbbbbb 2012-09-02 3 321 ccc ccccccc...

count distinct

无名小卒菜的博客

03-28

1万+

有时候做报表写sql需要用到去重，一般都是考虑到grouy by，distinct，但是我之前还真没有用到过 count distinct ，在此记录一下，虽然有的人说占内存，效率问题，但是确实是一个知识点。 SELECT COUNT(DISTINCT column_name) FROM table_name; 参考：浅析Hive的group by和count（distinct）使用...

大数据最佳实践-hive on spark

06-28

Hive on Spark可以处理大规模的数据，支持SQL查询和数据分析，同时还可以与其他大数据工具集成，如Hadoop、HBase等。在实际应用中，Hive on Spark可以用于数据仓库、数据分析、机器学习等领域，是一种非常实用的大...