hive上亿级别的表关联调优

最新推荐文章于 2022-03-03 17:44:07 发布

chimoren0700

最新推荐文章于 2022-03-03 17:44:07 发布

阅读量3k

点赞数

文章标签：大数据

原文链接：https://my.oschina.net/dataRunner/blog/287578

版权

本文讲述了在处理上亿级别数据表关联时遇到的性能问题，通过研究发现，由于使用了order by、笛卡尔积等操作导致Hive只分配了一个reduce任务。通过增加聚合函数、调整表关联顺序以及启用并行执行，成功将运行时间从3小时降低到15分钟，实现了调优。同时，文章提醒注意并行执行的资源需求，并鼓励IT领域的知识分享与交流。

摘要由CSDN通过智能技术生成

环境：公司决定使用宽表，将10个相关的大表进行全量关联

（1个上亿级别的表，5个上千万的表，剩下的表都不到百万的表）

花了两天的时间研究，测试

例如： a~g这几个表中，a表为上亿级别的表，5个上千万的表，剩下为表都百万的表

select a.uesrid,b.citycode,b.register_num,  ...  ,g.active_num 
from
(select userid,citycode from a)
left outer join
(select userid,register_num from b)
on (a.userid=b.userid)
...
left outer join
(select userid,active_num from g)
on (a.userid=b.userid)

你会发现
最后一个job异常慢，并且reduce为1。

也多人会说，你傻逼呀，设置reduce数呀，对这是一个好办法，但是结果如何呢？

#设置传输格式
set mapred.output.compress=true;  
set hive.exec.compress

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chimoren0700

关注关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hadoop、Spark和Hive调优优化原理

AI天才研究院

08-03

980

1995年伊藤博文等人提出了MapReduce计算框架，将海量的数据分布式地处理在多台计算机上，并通过分割输入数据集并将其划分为多个任务来并行执行计算，最后合并结果得到整体输出。然而随着互联网和大数据的普及以及处理器性能的提升，当时的技术已经远远超过了当时能够想象的范围。这段时间MapReduce计算框架已经成为一个主流的开源计算框架，包括Hadoop、Pig、Hive、Mahout、Storm等。

Hive系列 (十)：Hive调优

Eric Ray的博客

09-09

3028

Hive优化详细解释

参与评论您还未登录，请先登录后发表或查看评论

hive两大表关联优化试验

热门推荐

yijichangkong的专栏

05-18

1万+

呼叫结果(call_result)与销售历史(sale_history)的join优化： CALL_RESULT: 32亿条/444G SALE_HISTORY:17亿条/439G 原逻辑 Map: 3255 Reduce: 950 Cumulative CPU: 238867.84 sec HDFS Read: 587550313339 HDFS Write: 725372

实战-不在害怕表关联(实现50亿*150亿数据量的表关联)

weixin_34166847的博客

03-17

388

2019独角兽企业重金招聘Python工程师标准>>> ...

20亿与20亿表关联优化方法(超级大表与超级大表join优化方法)

weixin_34260991的博客

06-30

1034

记得5年前遇到一个SQL。就是一个简单的两表关联。SQL跑了几乎相同一天一夜，这两个表都非常巨大。每一个表都有几十个G。数据量每一个表有20多亿，表的字段也特别多。相信大家也知道SQL慢在哪里了，单个进程的PGA 是绝对放不下几十个G的数据，这就会导致消耗大量temp tablespace，SQL慢就是慢在temp来回来回来回...的读写数据。遇到这样的超级大表与超级大表怎么优化呢？这篇文...

基于hive的大数据量的优化处理实例

qq_37238753的博客

07-23

3904

最近在做一个项目时遇到一个问题，是关于大数据量的数据，具体为一个800亿的轻度汇总数据，去关联一个7亿左右的另一个轻度汇总数据。主要遇到的问题有： 1，800亿的轻度汇总数据读写困难，耗费时间、资源大； 2，两表进行关联处理数据计算慢。背景：（完全假设来说） A表是以用户、城市维度的出现次数数据，字段主要有uid、city_id，cnt B表是以用户、城市维度的出现次数标准数据，字段主要有ui...

Hadoop 中的两表join

有时间就有历史，有历史就有传奇。

03-29

233

转自：http://www.gemini5201314.net/hadoop/hadoop-%e4%b8%ad%e7%9a%84%e4%b8%a4%e8%a1%a8join.html 作为数据分析中经常进行的join 操作，传统DBMS 数据库已经将各种算法优化到了极致，而对于hadoop 使用的mapreduce 所进行的join 操作，去年开始也是有各种不同的算法论文出现，讨论各种算法...

Hive函数、压缩存储、调优汇总、权限管理

修行的博客

08-28

371

Hive函数、压缩存储、调优、权限一、函数 1 系统内置函数显示自带函数的用法 desc function 函数名; 详细显示自带函数的用法 desc function extended 函数名; 2 自定义函数 1）Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展 2）当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以...

大数据之Hive<九>企业级调优

morexyoung的博客

12-27

899

9.1 Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT *FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默

十亿级表和亿级表join不动的解决方案

weixin_39031707的博客

08-21

2785

在开发中遇到问题表t_dmp_idfa_bundle_country_array_middle_tbl (后面简称表1)一个分区的数据量是40亿临时表t_ifa_tbl (后面简称表2)数据量3亿条数据表1 left join 表2 ,直接就挂掉了错误一般是类似于如下的错误 BlockManagerMasterEndpoint: No more replicas available fo...

hive join的优化

祁东握力的博客

11-07

469

CommonJoin 最为普通的join策略，不受数据量的大小影响，也可以叫做reduce side join ,最没效率的一种join方式. 它由一个mapreduce job 完成. 首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个mapoutput key 变成了table_name_tag_prefix + join_column_value , 但...

hive性能调优

shammy_feng的博客

08-23

332

一、调参数 1、调整map、reduce、job数量–原理未理解，参考网上资料 2、job过多时，尤其是union all过多时，开启job并行，但是比较耗资源 set hive.exec.parallel=true; set hive.exec.parallel.thread.number=10;#表示同时运行的job的个数二、减少数据量 1、检查筛选条件（最常用，一般漏掉日期筛选条件导致数据倾斜） 2、按照hive的执行顺序，过滤条件的位置：on>where>having 3、where中

Hive相关 & 提升Hive性能方法收集（持续更新ing）

Amelia's Blog

08-22

1925

Hive作为一种建立在Hadoop上的数据仓库，是一种能够分析、查询和存储在Hadoop中的大规模数据机制。Hive定义了简单的类SQL的查询语言，称为HQL，便于当下熟悉SQL语言的用户查询数据。 Hive查询语言相关 1. JOIN Hive支持两个表间以及两个以上表间的JOIN操作。Hive能够支持的JOIN操作包括：equality joins（不支持非等价连接的原因

hive中的join

persuit的专栏

05-22

775

hive只支持等连接，外连接，左半连接。hive不支持非相等的join条件（通过其他方式实现，如left outer join），因为它很难在map/reduce job实现这样的条件。而且，hive可以join两个以上的表。同个查询，可以join两个以上的表 Sql代码 1. SELECT a.val, b.val, c.val FROM a JOIN b ON (a.

hive通过union all 实现 join

yisun123456的博客

11-07

874

对于join操作，需要shuffle，在reduce端进行。所以对于数据量超大，比如两个表记录条数均在亿级别的，往往会导致计算时间过长。那如何可以高效的完成呢？就是将关联操作尽量的迁移到map端。具体做法： select uid, COALESCE(a,null) as a, COALESCE(b,null) as b from( select uid, a,null as b from table1 -- uid 唯一 union all select uid , null ...

HIVE中表之间相互联系的方式小结

yoghurt

09-24

1278

HIVE中表之间相互联系的方式小结：今天总结了一下hive中表与表之间发生关联的方式，大概的有以下几种，日后再补充：先建立两张表：user+job 表的数据结构： -------------------------------------------------- user： user_id name 1 张三 2 李四 3 王五 create external table

（转载）Hive千亿级数据倾斜解决方案（好文收藏）

moose_killer的博客

03-03

493

数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”，为什么说千亿级，因为如果一个任务的数据量只有几百万，它即使发生了数据倾斜，所有数据都跑到一台机器去执行，对于几百万的数据量，一台机器执行起来还是毫无压力的，这时数据倾斜对我们感知不大，只有数据达到一个量级时，一台机器应付不了这么多数据，这时如果发生数据倾斜，最后就很难算出结果。所以就需要我们对数据倾斜的问题进行优化，尽量避免或减轻数

全面总结Hive性能优化（二）

zp17834994071的博客

07-19

816

上一篇已经从各方面总结了Hive的优化,按很多时候要解决数据倾斜才是优化的关键。在MapReduce程序中，大量的相同key被partition分配到一个分区里，使这个节点承受着巨大的压力，而其他节点计算完毕后要一直等待这个忙碌的节点，这样一来也拖累了整体的计算时间，使数据的生产效率十分低下，总而言之这都是数据倾斜造成的。造成数据倾斜的原因有很多，这里总结下以下几点原因： key分布不均匀业务数据本身的特性建表时考虑不周某些SQL语句本身就有数据倾斜数据倾斜一般可以分为三种： Mapper

Hive--hive一种通用的上亿级别的去重方法

SOARING

09-07

3603

前些阵子在公司做项目遇到了一个问题，就是需要都行业中的所有品牌的uid进行去重的然后计数的操作。数据量去完重复大概2个亿，去之前大概将近三个亿。做法一：最原始的做法使用的是count(distingct uid)这个需要大概跑3个小时的任务。做法二：使用group by去重，效果依然不好。做法三：使用row_number() over(partition by uid order ...

hive中使用cte表关联

hive上亿级别的表关联 调优

hive上亿级别的表关联调优