大数据优化之数据倾斜

最新推荐文章于 2024-09-27 10:47:12 发布

weixin_34095889

最新推荐文章于 2024-09-27 10:47:12 发布

阅读量104

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/junstudys/p/10162709.html

版权

数据倾斜

数据倾斜概念

在做计算的时候，数据的分散度不够(数据的Key分布不均)，导致数据分布在一台或几台机器计算
症状：典型的现象就是数据reduce到99%很久不动了

数据倾斜原因

总原因：key分布不均
业务数据的特点（数据的幂律分布）
人为建表的疏忽
join、group by、count distinct等操作触发shuffle操作

一些数据倾斜解决方法

将数据均匀分配到各个reduce中是解决数据倾斜的根本所在

业务逻辑

根据业务特点，单独对特别的业务数据进行聚合

程序

count distinct操作，先转成group by，再count
left semi join使用

设置参数

hive.map.aggr = true
hive.groupby.skewindata=true

总结

如果玩大数据数据倾斜是绕不过去的一个东西，解决数据倾斜问题是大数据查询优化的一种方法
数据倾斜是key分布不均导致
把数据均匀分布到各个reduce是解决数据倾斜的根本所在
没有一劳永逸的方法，具体问题具体分析，并且需要不断调试

参考资料

漫谈千亿级数据优化实践：数据倾斜
 hive大数据倾斜总结
 006.hive语句优化
 Hive优化总结

Changelog

181205创建

转载于:https://www.cnblogs.com/junstudys/p/10162709.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34095889

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

漫谈千亿级数据优化实践：数据倾斜（纯干货）

木东居士

04-23

4199

0x00 前言 数据倾斜是大数据领域绕不开的拦路虎，当你所需处理的数据量到达了上亿甚至是千亿条的时候，数据倾斜将是横在你面前一道巨大的坎。迈的过去，将会海阔天空！迈不过去，就要做好准备：很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。郑重声明：话题比较大，技术要求也比较高，笔者尽最大的能力来写出自己的理解，写的不对和不好的地方大家一起交流。有些例子不是特别严谨，一

大数据SQL优化之数据倾斜解决案例全集

OPPO数智技术

01-05

880

大数据任务领域里最困难的问题莫过于数据倾斜，除了一些常规的参数优化外，还有一些非常困难以致于必须通过SQL改写才能避免倾斜的情况。本文介绍了如何解决关联结果膨胀，如何巧妙的避免全局排序以及如何解决写倾斜等情形。

参与评论您还未登录，请先登录后发表或查看评论

spark 数据倾斜 解决思路

maketubu7的博客

08-06

199

数据倾斜调优 - 绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时,这种情况很常见 - 原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈，是我们写的业务代码造成的。这种情况比较少见 数据倾斜发生的原因：在进行shuffle的时候，必须将各个节点上...

sqoop-import 并行抽数及数据倾斜解决

山雨欲来风满楼

01-14

6628

最近在数据中台的数据抽数优化工作，由于单表数据量太大（每天千万级别）导致sqoop抽数使用单实例报内存溢出以及抽数时间过长，决定采用sqoop的多实例并行抽数，参考了一些文档，但同时遇到了一些问题，趁有点时间把遇到问题的解决方法写下来供大家借鉴。并行化 sqoop-常用命令及参数：https://www.yuque.com/shanyu-aqvcy/hkqgb7/vngsox sqoop...

数据倾斜解决方案之提高shuffle操作reduce并行度

mn_kw的博客

07-20

892

提高shuffle操作的reduce并行度将reduce task的数量，变多，就可以让每个reducetask分配到更少的数据量，这样的话，也许就可以缓解，或者甚至是基本解决掉数据倾斜的问题提升shuffle reduce端并行度，怎么来操作很简单，主要给我们所有的shuffle算子，比如groupByKey,countByKey,reduceByKey，在调用的时候，传...

大数据hive数据倾斜，hive-sql优化

08-17

大数据Hive数据倾斜、Hive-SQL优化在大数据处理中，Hive是一个非常重要的工具，然而在实际应用中，数据倾斜和性能优化问题经常会出现。为了解决这些问题，我们需要了解Hive的性能调优、数据模型设计、数据倾斜判断...

大数据常见问题之数据倾斜.docx

12-24

数据倾斜是大数据处理中常见的问题，它指的是在分布式计算过程中，由于数据分布不均，使得某些节点负担过重，导致计算速度严重下降，甚至任务无法完成。数据倾斜的影响广泛，可以出现在Hadoop MapReduce和Spark等...

大数据常见问题之数据倾斜.pdf

12-24

数据倾斜是大数据处理中常见的问题，它发生在数据分散度不足，导致部分节点处理的数据...通过结合业务逻辑优化、程序设计改进和参数调优，可以有效地减轻或消除数据倾斜带来的负面影响，提高大数据处理的效率和稳定性。

大数据SQL数据倾斜与数据膨胀的优化与经验总结

Code365

06-27

943

本文主要基于团队实际开发经验与积累，并结合了业界对大数据SQL的使用与优化，尝试给出相对系统性的解决方案。背景目前市面上大数据查询分析引擎层出不穷，如Spark，Hive，Presto等，因其友好的SQL语法，被广泛应用于各领域分析，公司内部也有优秀的ODPS SQL供用户使用。笔者所在团队的项目也借用ODPS SQL去检测业务中潜在的安全风险。在给业务方使用与答疑过程中，我们发现大多含有性能瓶颈的SQL，主要集中在数据倾斜与数据膨胀问题中。

hive数据倾斜优化策略

小宁哥博客

05-13

1万+

sqoop并发度如果太小会怎么样

H.C. Lee的博客

09-28

1816

问题：sqoop 导入数据报内存溢出解决：-m 100改成1024 思考：之前一直以为sqoop -m参数设置的太小只会影响运行时间。结果昨天-m 100的时候一直崩，mentor设置成1024就解决了。...

sqoop 并行抽取数据,同时解决数据倾斜

bymain的博客

09-01

1833

这里写自定义目录标题Sqoop 并行抽取数据根据sqoop源码的设计，我们可以使用--query语句中添加自增ID，作为split-by的参数，与此同时通过设置的自增ID的范围可以设置boundary。。 Sqoop 并行抽取数据通常可以指定split-by 对应的zizengID 列，然后使用–num-mappers或者-m指定map的个数，即并发的抽取进程数量。但是有时候会碰到很多的表没有添加自增ID或者，整数型的主键，或者主键分布不均，反而会拖慢整个job的进程。根据sqoop源码的设计，我们可

spark性能优化：数据倾斜调优

Always on the road

04-10

624

　原博文出自于:　　http://www.cnblogs.com/zlslch/p/6046276.html　　　　　　　感谢！调优概述　　有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。 ...

数据倾斜及其高效解决方法

热门推荐

anshuai_aw1的博客

11-13

3万+

数据倾斜是大数据领域绕不开的拦路虎，当你所需处理的数据量到达了上亿甚至是千亿条的时候，数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 数据倾斜是指：mapreduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千...

Hive之数据倾斜的原因和解决方法

春华秋实

09-02

7849

数据倾斜 在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将...

Hive解决数据倾斜的各种优化方法

TRX的博客

01-20

6015

一、概念数据处理中的数据倾斜：个人理解，在数据处理的MapReduce程序中，由于数据的特殊性，数据中存在大量相同key的数据，根据业务需求需要对这个key进行分区操作（group by/join）时，在map的partition阶段将大数据量的相同key的数据全部分配到同一个Reduce，导致Reduce的节点数据量分配极度不均衡的现象，称为数据倾斜。 数据倾斜有哪些表现：最直观的表现就是：Hive SQL运行得慢任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量.

基于Hive和Hadoop的哔哩哔哩网站分析系统

图南的博客

09-27

710

本项目是一个基于大数据技术的哔哩哔哩平台分析系统，旨在为用户提供全面的哔哩哔哩视频数据和深入的用户行为分析。系统采用 Hadoop 平台进行大规模数据存储和处理，利用 MapReduce 进行数据分析和处理，通过 Sqoop 实现数据的导入导出，以 Spark 为核心进行高效的数据处理。整个系统结合了大数据处理技术，为用户提供精准的内容推荐和深入的用户兴趣分析，帮助平台更好地了解视频趋势和用户需求。

从 Kafka 到 WarpStream：用 MinIO 简化数据流