Spark 读写Hive分桶表

最新推荐文章于 2024-04-22 18:40:02 发布

嘻哈吼嘿呵

最新推荐文章于 2024-04-22 18:40:02 发布

阅读量2.3k

点赞数 1

分类专栏： # Spark

原文链接：https://stackoverflow.com/questions/53476945/read-write-bucketed-tables-in-spark?r=SearchResults

版权

Spark 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

I have a number of tables (with 100 million-ish rows) that are stored as external Hive tables using Parquet format. The Spark job needs to join several of them together, using a single column, with almost no filtering. The join column has unique values about 2/3X fewer than the number of rows.

I can see that there are shuffles happening by the join key; and I have been trying to utilize bucketing/partitioning to improve join performance. My thought is that if Spark can be made aware that each of these tables has been bucketed using the same column, it can load the dataframes and join them without shuffling. I have tried using Hive bucketing, but the shuffles don't go away. (From Spark's documentation it looks like Hive bucketing is not supported as of Spark 2.3.0 at least, which I found out later.) Can I use Spark's bucketing feature to do this? If yes, would I have to disable Hive support and just read the files directly? Or could I rewrite the tables once using Spark's bucketing scheme and still be able to read them as Hive tables?

EDIT: For writing out the Hive bucketed tables I was using something like:

customerDF
.write
.option("path", "/some/path")
.mode("overwrite")
.format("parquet")
.bucketBy(200, "customer_key")
.sortBy("customer_key")
.saveAsTable("table_name")

 giftDF.write
.partitionBy("plat","date")
.mode(SaveMode.Append)
.bucketBy(20,"room_id")
.parquet(path)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

嘻哈吼嘿呵

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark与Hive的数据分区与分桶策略详解

程序员光剑

05-22

1105

1. 背景介绍 1.1 大数据时代的数据处理挑战随着互联网、物联网、移动互联网等技术的飞速发展，全球数据量呈现爆炸式增长，大数据时代已经来临。海量数据的存储、管理和分析成为企业面临的巨大挑战。如何高效地处理和利用这些数据，从中提取有价值的信息，已成为当务之急。

spark 读取hive分桶表无shuffle join

yy的博客

04-20

576

- 分桶join bucketjoin hive分桶 spark分桶分桶优化分桶join优化。

参与评论您还未登录，请先登录后发表或查看评论

spark-sql执行sql语句，往hive的分区分桶表中插入数据

m0_46142780的博客

02-19

1119

spark-sql执行sql语句，往hive的分区分桶表中插入数据

SparkSql 读写Hive 分区表（数据清洗类）

L, there!

10-23

4998

主要使用 SparkSql 对 Hive 分区表使用动态分区进行操作，根据规则对数据进行清洗等，除了刚导入数据时指定date范围清洗，后期按天进行清洗。 package com.sm.cleandata import java.io.File import java.util.Properties import com.sm.conf.ConfigurationManager i...

Spark SQL 分桶表在字节跳动的优化

过往记忆大数据

09-24

3220

本文来自 SPARK + AI SUMMIT 2020北美会议，分享者来自字节跳动的郭俊。Bucket 在 Hive 和 Spark SQL 中普遍使用，用于消除 Join 或者 gr...

Spark 中的分桶分化

最新发布

一群专业码农的笔记本

04-22

1819

是 Spark 和 Hive 中用于优化任务性能的一种技术。在分桶桶（）中确定数据分区并防止数据混洗。根据一个或多个分桶列的值，将数据分配给预定义数量的桶。

spark写hive分区表，文件move失败

stonehigher125的专栏

04-23

905

1.写分区文件失败错误日志出现org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.hive.ql.metadata.HiveException: Load Data failed for hdfs://***:8020/warehouse/tablespace/managed/hive/***/.hive-staging_hive_ 20

spark之读写Hive

qq_56870570的博客

07-10

6767

一、数据准备 1.1 将hive-site.xml拷贝到spark/conf目录下：分析：从错误提示上面就知道，spark无法知道hive的元数据的位置，所以就无法实例化对应的client。解决的办法就是必须将hive-site.xml拷贝到spark/conf目录下 1.2测试代码中没有加sc.stop会出现如下错误： ERROR scheduler.LiveListenerBus: Listener EventLoggingListener threw an exception ja..

项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）

10-24

Spark与Hive的集成允许我们直接操作Hive表，将Hive数据转换为Spark DataFrame，这样就可以利用Spark的并行计算能力进行数据预处理和转换。 3. **数据转换**：在从Hive加载数据到Spark后，可能需要对数据进行清洗...

简单的spark 读写hive以及mysql

11-30

1. **数据类型匹配**：Spark DataFrame 和 Hive 或 MySQL 表的列数据类型应保持一致，否则可能会在读写过程中遇到问题。 2. **分区策略**：在写入 Hive 时，如果数据量大，可以使用分区策略来优化存储和查询性能。...

spark 读取hive java_Spark2.0入门：连接Hive读写数据（DataFrame）

weixin_35397676的博客

02-26

953

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！[返回Spark教程首页]Hive是基于Hadoop的数据仓库(要想了解更多数据仓库Hive的知识以及如何安装Hive，可以参考厦门大学数据库实验室的Hive授课视频、Hive安装指南)。本节内容介绍Spark如何连接Hive并读写数据。一、让Spark包含Hive支持为了让Spark能够访问Hive，必须为Spark添加Hi...

Spark读写Hive

L, there!

06-18

1224

1. maven依赖添加spark-hive、mysql-connector-java <properties> <spark.version>2.3.3</spark.version> <mysql.version>8.0.15</mysql.version> </propert...

Spark写入非分区表Hive无法读取的问题

欲望以提升热忱毅力以磨平高山

10-31

732

问题描述： Spark2.4写入的非分区表无法使用Hive2.1.1版本的引擎去读取，报错：`Failed with exception java.io.IOException:java.lang.ArrayIndexOutOfBoundsException: 6` 原因分析：一、非分区表测试 --1. 新建测试表 create table tmp.orc(id int, name string) stored as orc; --2.sparksql写入 insert into table t

Hive 和 Spark 分区策略剖析

架构师小秘圈

03-30

137

作者：vivo 互联网搜索团队- Deng Jie随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略方面有着一些相似之处，但也存在一些不同之处。一、概述随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hiv...

当hive使用分桶时，报错：is bucketed but Spark currently does NOT populate bucketed output which is ....

billionyearsbo的博客

09-06

1485

这个错误的产生一般是因为你在设置了这个参数： set hive.exec.dynamic.partition =true; 这个参数的含义是：开启强制分桶；是实现分桶，能够根据你设置的规则，把数据分配到指定位置的桶中，方便后期的抽样。出现标题上的错误的原因有可能是：spark的版本问题，spark版本过低不兼容等。验证spark版本问题：你把上面的参数改为: 注意：下面的 4 是要跟你创建的表时，设置的桶数一致； set hive.enforce.bucketing =false; set hiv

Hive on Spark中分桶表如何控制存储在hdfs文件个数

summer089089的博客

03-10

1116

建表语句 import sparkSession.implicits._ ssc.textFile("/user/ods/coursepay.log") .filter(item => { val obj = ParseJsonData.getJsonData(item) obj.isInstanceOf[JSONObject] ...

spark写表指定外部表_Spark结构化流写入流到Hive ORC分区外部表

weixin_36430300的博客

01-30

420

我正在尝试使用Spark Structured Streaming - writeStream API来写入外部分区的Hive表 .CREATE EXTERNAL TABLE `XX`(`a` string,`b` string,`b` string,`happened` timestamp,`processed` timestamp,`d` string,`e` string,`f` s...

sparksql运算调优纪事（一）——hive小文件处理

豪大大的博客

09-19

1300

业务目的全量离线运算统计，结果写入oracle 问题执行时task数量过多 hive动态分区小文件过多测试环境5运算节点，内存分别为12G，不断发生内存溢出问题逐步调优 1、执行时task数量过多，总数达到了108000个，OMG，每个任务都是内存溢出，因为是用sparksql读hive表，所以spark的spark.default.parallelism强制指定task数并没有用，只...

HIVE—索引、分区和分桶的区别

weixin_30856965的博客

08-24

524

一、索引简介 Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。为什么要创建索引？ Hive的索引目的是提高Hive表指定列的查询速度。没有索引时，类似'WHERE tab1.col1 = 10' 的查询，Hi...

idea中spark读写hive测试

03-16

1. 首先需要在idea中添加spark和hive的依赖，可以在pom.xml文件中添加以下代码： ```  <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version> </dependency>  <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>2.3.7</version> </dependency> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-metastore</artifactId> <version>2.3.7</version> </dependency> ``` 2. 然后需要创建一个SparkSession对象，用于连接到Hive和Spark： ``` val spark = SparkSession.builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", "/user/hive/warehouse") .enableHiveSupport() .getOrCreate() ``` 其中，`appName`是应用程序的名称，`config`是指定Hive的warehouse目录，`enableHiveSupport`是启用Hive支持。 3. 接下来可以读取Hive中的数据，例如： ``` val df = spark.sql("SELECT * FROM my_table") ``` 其中，`my_table`是Hive中的表名。 4. 如果需要将数据写入Hive中，可以使用以下代码： ``` df.write.mode(SaveMode.Append).saveAsTable("my_table") ``` 其中，`SaveMode.Append`表示追加模式，`my_table`是Hive中的表名。 5. 最后需要关闭SparkSession对象： ``` spark.stop() ```