spark 读取hive分桶表无shuffle join

Thomas2143

已于 2023-04-22 02:12:59 修改

阅读量585

点赞数

分类专栏：总结文章标签： hive spark 大数据分桶join

于 2023-04-20 23:49:00 首次发布

本文链接：https://blog.csdn.net/qq_35515661/article/details/130278336

版权

总结专栏收录该内容

765 篇文章 93 订阅 ¥99.90 ¥299.90

订阅专栏

本文深入探讨了Spark与Hive的分桶表在join操作中如何避免shuffle，详细分析了不同Spark版本下的分桶策略，包括分桶数的影响、分桶优化、桶内排序、分桶表的检查与创建，以及分桶join的生效条件和陷阱，旨在提升大数据处理效率。

摘要由CSDN通过智能技术生成

-- 分桶join bucketjoin hive分桶 spark分桶分桶优化分桶join优化

https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53

要点:

spark2开始支持分桶
spark3.1.1增强了分桶
分桶设计合理,可以避免join产生shuffle
分桶设计合理,可以避免 rdd.groupby df.groupby 产生shuffle
分桶开关默认开启 spark.sql.sources.bucketing.enabled

分桶表tb1 join 普通表tb2

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Thomas2143

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

Spark 读写Hive分桶表

嘻哈吼嘿呵的博客

10-22

2330

I have a number of tables (with 100 million-ish rows) that are stored as external Hive tables using Parquet format. The Spark job needs to join several of them together, using a single column, with...

Spark SQL 分桶表在字节跳动的优化

过往记忆大数据

09-24

3224

本文来自 SPARK + AI SUMMIT 2020北美会议，分享者来自字节跳动的郭俊。Bucket 在 Hive 和 Spark SQL 中普遍使用，用于消除 Join 或者 gr...

参与评论您还未登录，请先登录后发表或查看评论

Spark 中的分桶分化

一群专业码农的笔记本

04-22

1855

是 Spark 和 Hive 中用于优化任务性能的一种技术。在分桶桶（）中确定数据分区并防止数据混洗。根据一个或多个分桶列的值，将数据分配给预定义数量的桶。

Spark 大表之间的join

u012450976的专栏

05-23

6232

最近在处理两份大表之间的join优化。表1 数据量是 8.1G 表2 数据量是 24.1G spark.sql.shuffle.partitions 800 5个Executor，每个Executor 10G内存，每个Executor CPU的cores是 4 制定了3中优化措施。 1:表2 直接 left join 表1. 2:表2 union 表1 ，然后groupBy ...

SparkSql 读写Hive 分区表（数据清洗类）

L, there!

10-23

5009

主要使用 SparkSql 对 Hive 分区表使用动态分区进行操作，根据规则对数据进行清洗等，除了刚导入数据时指定date范围清洗，后期按天进行清洗。 package com.sm.cleandata import java.io.File import java.util.Properties import com.sm.conf.ConfigurationManager i...

Spark SQL优化之路——Hive篇

Christopher_L1n的博客

10-31

4936

Spark SQL针对Hive数据源的优化指南。

SQL（hive和spark SQL）join的实现方式

ChengkunCutting的博客

07-08

475

SQL hive 在map端join mapJoin的主要意思就是，当链接的两个表是一个比较小的表和一个特别大的表的时候，我们把比较小的table直接放到内存中去，然后再对比较大的表格进行map操作。join就发生在map操作的时候，每当扫描一个大的table中的数据，就要去去查看小表的数据，哪条与之相符，继而进行连接。这里的join并不会涉及reduce操作。map端join的优势就是在于没有shuffle。 common join common join也叫做shuffle join，reduc

spark-sql执行sql语句，往hive的分区分桶表中插入数据

m0_46142780的博客

02-19

1125

spark-sql执行sql语句，往hive的分区分桶表中插入数据

Spark SQL详解

微步的博客

09-26

3719

转自：https://mp.weixin.qq.com/s/SGhYBxGd5qCVfeM70DRFTw 发家史熟悉spark sql的都知道，spark sql是从shark发展而来。Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MR作业替换成了Spark作业（辅以内存列式存储等各种和Hive关...

Spark bucketing bucket分桶原理和应用

Learning

08-24

2174

介绍Spark分桶的原理以及如何在数据分析和数据准备中更好的应用分桶。

SparkSql（2）

qq_51536995的博客

09-22

344

7.分区，分桶，排序分区是按某个字段以目录级别划分分桶是按某个字段以文件级别划分排序是按照某个字段在文件内部(每个桶)有序注意：如果使用分桶和排序，必须使用持久化表如果数据的数量较小，有的达不到设置的分桶数 def bps(spark:SparkSession)={ import spark.implicits._ val bpsDF=spark.read.load("D://work/path") bpsDF.write .partition

Spark与Hive的数据分区与分桶策略详解

最新发布

AI天才研究院

05-22

1124

1. 背景介绍 1.1 大数据时代的数据处理挑战随着互联网、物联网、移动互联网等技术的飞速发展，全球数据量呈现爆炸式增长，大数据时代已经来临。海量数据的存储、管理和分析成为企业面临的巨大挑战。如何高效地处理和利用这些数据，从中提取有价值的信息，已成为当务之急。

Hive 和 Spark 分区策略剖析

架构师小秘圈

03-30

138

作者：vivo 互联网搜索团队- Deng Jie随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略方面有着一些相似之处，但也存在一些不同之处。一、概述随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hiv...

【Spark的五种Join策略解析】

岸芷汀兰

09-12

2270

Spark将参与Join的两张表抽象为流式遍历表(streamIter)和查找表(buildIter)，通常streamIter为大表，buildIter为小表，我们不用担心哪个表为streamIter，哪个表为buildIter，这个spark会根据join语句自动帮我们完成。对于每条来自streamIter的记录，都要去buildIter中查找匹配的记录，所以buildIter一定要是查找性能较优的数据结构。

Spark原理篇之SparkSQL Join分析

huahuaxiaoshao的博客

06-08

1848

1 Join背景 Join是数据库查询永远绕不开的话题，传统查询SQL技术可以分为简单操作（过滤操作-where、排序操作-sort by），聚合操作-groupby以及join操作等。其中join操作是最复杂的、代价最大的操作模型，也是OLAP场景中使用相对较多的操作。因此很有必要对其进行深入研究。 ...

Spark特征工程-归一化和分桶

Code_LT的博客

07-08

1196

归一化分桶

一文讲透Spark中的分区和分桶的不同

程研板的博客

04-03

3327

目录一.数据准备二.Spark Core中的分区三.Spark SQL中的分区和分桶（用HQL）一.数据准备 partition.txt: b,2 c,1 b,1 d,3 a,2 b,1 二.Spark Core中的分区 val rdd = sc.textFile("D:\\study\\workspace\\spark-sql-train\\input\\partition.txt") .map(_.split(",")).map(x => (x(0), x(1))) rdd.saveAs

大数据开发之Spark篇----join的不同情况讨论(避免shuffle)

weixin_39702831的博客

11-14

1419

Join如何避免shuffle 在我们使用Spark对数据进行处理的时候最让人头疼的就是业务上复杂的逻辑，而这些逻辑往往不是map算子就能解决的，不是aggragate就是join操作，而这些操作又伴随着shuffle极大地影响了程序执行过程的性能开销。今天我们来讨论下在使用join的时候如何避免shuffle的发生。一般我们直接使用join的时候都是触发commen join，这种join操作...

2023大数据面试深度解析：涵盖Hadoop, Spark, Hive, HBase等

Spark作为一个高效的并行计算框架，面试中可能涉及Spark Core、Spark SQL、Spark Streaming、Spark MLlib等模块，以及Shuffle过程、RDD持久化、宽依赖和窄依赖等核心概念。 Hive和HBase是大数据存储和查询的常用...

spark 读取hive分桶表 无shuffle join

分桶表tb1 join 普通表tb2

spark 读取hive分桶表无shuffle join