Spark 及 Hive 中的 Union 猜想(有待更详细验证)

最新推荐文章于 2022-08-31 23:45:07 发布

腹黑客

最新推荐文章于 2022-08-31 23:45:07 发布

阅读量223

点赞数

文章标签： hive spark big data

本文链接：https://blog.csdn.net/qq_29342297/article/details/120530635

版权

本文探讨了Hive和Spark SQL在处理UNION操作时的不同策略。Hive在使用UNION时会自动进行GROUP BY操作，而Spark则可能为相同表的字段添加数字标识以区分。同时，解释了Hive在Map和Reduce阶段的数据处理方式。通过对查询计划的分析，揭示了两种系统在执行相同SQL语句时的内在差异。

摘要由CSDN通过智能技术生成

Hive 2.x

-- 这句sql在hive中是无法执行的。
explain select id,id from people
union
select id,id from people

报错：
在这里插入图片描述
查看近似sql的查询计划。

Hive在使用union时,自动做了group by
explain select city from test.student
union
select name from test.citys;

结合:
explain select city from test.student group by city;
explain select city,city from test.student group by city;
explain select city,city from test.student group by city,city;

Hive在扫描不同/相同表时,采用的都是相同的临时变量名作为Map的输出。无法区分不同表的id.
在这里插入图片描述
Reduce时直接用Map输出的临时变量进行处理。

猜测：

Spark-Emr版本

explain select id,id from people
union
select id,id from people

在这里插入图片描述

spark在生成执行计划的时候，尽管是相同表的相同的id，但会添加上不同的数字标注。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

腹黑客

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

拾肆：Spark with Hive和Hive on Spark

someInNeed的博客

01-13

1359

在 Hive 与 Spark 这对“万金油”组合中，Hive 擅长元数据管理，而 Spark 的专长是高效的分布式计算，二者的结合可谓是“强强联合”。今天这一讲，我们就来聊一聊 Spark 与 Hive 集成的两类方式，一类是从 Spark 的视角出发，我们称之为 Spark with Hive；而另一类，则是从 Hive 的视角出发，业界的通俗说法是：Hive on Spark。当 Hive 采用 Spark 作为底层的计算引擎时，我们就把这种集成方式称作“Hiv...

Spark on Hive 和 Hive on Spark的区别与实现

Alex的博客

06-13

3593

Spark on Hive 是Hive只作为存储角色，Spark负责sql解析优化，执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤如下：【总结】Spark使用Hive来提供表的metadata信息。Hive on Spark是Hive既作为存储又负责sql的解析优化，Spark负责执行。这里Hive的执行引擎变成了Spark，不再是MR，这个要实现比Spark on Hive麻烦很多, 必须重新编译你的spark和导入

参与评论您还未登录，请先登录后发表或查看评论

spark中union和unionAll

kwame211的博客

03-31

7995

spark中union 和 unionAll 区别。 union会把数据都扫一遍，然后剔除重复的数据；然而unionAll直接把两份数据粘贴返回，时间上会快很多。 unionAll用的会比较多一些 union是返回两个数据集的并集，不包括重复行，要求列数要一样，类型可以不同 unionAll是返回两个数据集的并集，包括重复行 Intersect是返回两个数据集的交集，不包括重复行 Min...

spark业务开发-union合并(union)

w757227129的博客

01-15

1442

spark业务开发-union合并(union) 项目地址:https://gitee.com/cch-bigdata/spark-process.git 输入数据集1 id,name,profession,enroll,score 1,庄劲聪,经济学类,北京理工大学,551 2,吴雅思,经济学类,北京理工大学,529 3,周育传,经济学类,北京理工大学,682 4,丁俊伟,通信工程,北京电子科技学院,708 5,庄逸琳,通信工程,北京电子科技学院,708 6,吴志发,通信工程,北京电子科技学院,578

spark算子union使用

RiverCode的博客

03-02

9486

Spark算子union、distinct使用

SparkSql On Hive

难得糊涂

05-08

914

序言 sql 在 hive的使用具体还分为了2种解决方案： spark sql：是hive上的sql语句，spark sql用的是spark 引擎。Spark SQL的前身是Shark，是给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，其对Hive有太多依赖。 hive on spark：是hive上的sql语句，hive on spark是hive借用spark的引擎。 Hive on Spark是由Cloudera发起，将Hive的查询作为Spark的任务提交到.

SparkRDD算子--union算子

寒暄的博客

08-01

2145

语法 val newRdd = oldRdd1.union(oldRdd2) 源码 def union(other : org.apache.spark.rdd.RDD[T]) : org.apache.spark.rdd.RDD[T] = { /* compiled code */ } 作用计算两个RDD的并集。例子 package com.day1 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkC

Spark不能使用hive自定义函数.doc

热门推荐

SmartSi

03-07

2万+

1. union语法select_statement UNION [ALL | DISTINCT] select_statement UNION [ALL | DISTINCT] select_statement ...UNION将多个SELECT语句的结果集合并为一个独立的结果集。当前只能支持UNION ALL(bag union)。不消除重复行。每个select语句返回的列的数量和名字必须一样

Hive On Spark解析SQL过程剖析

qq_30003943的博客

11-13

1988

1.Hive执行过程概览无论Hive Cli还是HiveServer2，一个HQl语句都要经过Driver进行解析和执行，粗略如下图： 2.Driver处理的流程 HQL解析(生成AST语法树)=>语法分析(得到QueryBlock)=>生成逻辑执行计划(Operator)=>逻辑优化(Logical Optimizer Operator)=>生成物理执行计划(Task Plan)=>物理优化(Task Tree)=>构建执行计划...

hive中union的一些问题

qq_40772429的博客

09-13

1135

首先union去重，union all 不去重，union能对多行相同的数据只留一行。但是有些实际应用中union无法去重，却又找不到原因，往往是因为查询语句与建表语句的数据格式不同，比如建表时，money 字段为bigint类型，然后查询语句中sum（xxx） money，得到的是Int类型，如果两个重复数据进行union时，即使两个数据都是Int类型，也不会进行去重，需要都与建表语句的类型一致才能去重。 ...

解决Spark查询Hive表扫描不到HIVE_UNION_SUBDIR的问题

私奔在线

03-29

4917

背景　　使用Hive的insert overwrite/into select ... union all生成的Hive表数据时，会在原本的数据表目录下生成多个子目录（HIVE_UNION_SUBDIR_1、HIVE_UNION_SUBDIR_2），以存放数据文件（正常情况下数据文件会直接存放在数据表目录下）。　　这时，如果使用spark-sql去查询该数据表的时候，会报 Not a file 的异常： Cause by: java.io.IOException: Not a file: hdf

hive on spark 动态解决小文件太多的办法

longyangaaoo的博客

11-27

1万+

在做项目时，有个ETL需要处理，数据都在HIVE里面，需要对数据进行统计分析转换。开始直接用的HIVE的JDBC，效率不高。后来想到用hive on spark的方式处理。底层不再使用MapReduce进行计算，避免shuffle引起的大量读写硬盘和rpc网络拷贝带来的性能底下问题，程序效率有了明显提高。但是随之而来的是用sparksql往hive表中插入数据时，会产生很多小文件。用hive时，可以

spark on hive和hive on spark哪个效率更高

07-27

这种架构模式允许用户在Hive中使用Spark的强大计算功能，同时能够利用Hive的优化器和元数据管理功能。适用于需要使用Hive的元数据和查询语言，但同时也需要Spark的计算能力的场景。对于大规模数据集和需要复杂计算的...