spark hive区别

最新推荐文章于 2024-09-12 18:00:00 发布

weixin_30315723

最新推荐文章于 2024-09-12 18:00:00 发布

阅读量207

点赞数

文章标签：大数据数据库人工智能

原文链接：http://www.cnblogs.com/wjsshide/p/5560423.html

版权

一:Hive本质是是什么

1：hive是分布式又是数据仓库，同时又是查询引擎，Spark SQL只是取代的HIVE的查询引擎这一部分，企业一般使用Hive+spark SQL进行开发

2：hive的主要工作

1> 把HQL翻译长map-reduce的代码，并且有可能产生很多mapreduce的job

2> 把生产的Mapreduce代码及相关资源打包成jar并发布到Hadoop的集群当中并进行运行

3：hive架构

4：hive默认情况下用derby存储元数据，所以在生产环境下一般会采用多用户的数据库进行元数据的存储，并可以读写分离和备份，一般使用主节点写，从节点读，一般使用mysql

5：hive数据仓库数据的具体存储

二：SparkSQL 和DataFrame

1：处理一切存储介质和各种格式的数据(可以扩展sparksql来读取更多类型的数据)

2：Spark SQL把数据仓库的计算速度推向了新的高度（Tungsten成熟之后会更厉害）

3：Spark SQL 推出的Dataframe可以让数据仓库直接使用机器学习，图计算等复杂算法

4：HIVE+Spark SQL+DataFrame：

i> Hive:负责廉价的数据仓库存储

ii>Spark Sql:负责高速的计算

iii> DataFrame：负责复杂的数据挖掘

三： DataFrame与RDD

1：DataFrame是一个分布式的table

2：RDD和DataFrame的根本差异

1.RDD是以Record为单位的，

2.DataFrame包含了每一个Record的Metadata信息，也就是说DataFrame的的优化是基于列的优化，RDD是基于行的优化

转载于:https://www.cnblogs.com/wjsshide/p/5560423.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30315723

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Apache Hive VS Spark：不同目的，同样成功！

读芯术的博客

08-26

1037

全文共2283字，预计学习时长5分钟图片来源：pexels.com/photo/sliced-lemon-952354/ Hive和Spark凭借其在处理大规模数据方面的优势大获成功，换句话说，它们是做大数据分析的。本文重点阐述这两种产品的发展史和各种特性，通过对其能力的比较，来说明这两个产品能够解决的各类复杂数据处理问题。什么是Hive? Hive是在Hadoop...

hive与spark

ssh0616的博客

01-26

1256

hive和spark区别

参与评论您还未登录，请先登录后发表或查看评论

大数据组件详解：Spark、Hive、HBase、Phoenix 与 Presto

热门推荐

woshimeilinda的博客

05-02

2万+

spark hive区别一:Hive本质是是什么 1：hive是分布式又是数据仓库，同时又是查询引擎，Spark SQL只是取代的HIVE的查询引擎这一部分，企业一般使用Hive+spark SQL进行开发 2：hive的主要工作 1> 把HQL翻译长map-reduce的代码，并且有可能产生很多mapreduce的job 2> 把生产的Mapreduce代码及相关资源打...

Spark与Hive的比较与优势

AI天才研究院

01-28

1286

1.背景介绍 1. 背景介绍 Apache Spark和Hive都是大数据处理领域的重要工具。Spark是一个快速、高效的大数据处理框架，可以处理批量数据和流式数据。Hive则是一个基于Hadoop的数据仓库系统，可以处理大量结构化数据。在大数据处理领域，选择合适的工具是非常重要的。因此，了解Spark与Hive的比较和优势是非常有必要的。 2. 核心概念与联系 2.1 Spark的核心概...

Spark和Hive的结合（让hive基于spark计算）

01-07

spark和hive结合 1.安装mysql 2.在spark/conf中创建一个hive-site.xml javax.jdo.option.ConnectionURL jdbc:mysql://192.168.224.132:3306/hive?createDatabaseIfNotExist=true JDBC connect string for ...

编译的spark-hive_2.11-2.3.0和 spark-hive-thriftserver_2.11-2.3.0.jar

06-23

spark-hive_2.11-2.3.0 spark-hive-thriftserver_2.11-2.3.0.jar log4j-2.15.0.jar slf4j-api-1.7.7.jar slf4j-log4j12-1.7.25.jar curator-client-2.4.0.jar curator-framework-2.4.0.jar curator-recipes-2.4.0....

简单的spark 读写hive以及mysql

11-30

首先，`SparkToHive.java` 和 `SparkHive.java` 文件涉及的是 Spark 读取和写入 Hive 数据。Spark 支持通过 HiveContext（现在称为 HiveSession）连接到 Hive，这样可以使用 SQL 查询 Hive 表并将其结果转换为 Spark...

项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）

10-24

在本项目实战中，我们将探讨如何使用Java编程语言，结合Spark和Hive，将Hive中的数据高效地导入到ElasticSearch（ES）中，并利用ES的别名机制实现数据更新的平滑过渡。以下是对这个流程的详细解析： 1. **Hive数据...

Spark on Hive 和 Hive on Spark的区别与实现

Alex的博客

06-13

3646

Spark on Hive 是Hive只作为存储角色，Spark负责sql解析优化，执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤如下：【总结】Spark使用Hive来提供表的metadata信息。Hive on Spark是Hive既作为存储又负责sql的解析优化，Spark负责执行。这里Hive的执行引擎变成了Spark，不再是MR，这个要实现比Spark on Hive麻烦很多, 必须重新编译你的spark和导入

基于Spark的大数据分析工具Hive的研究(毕业论文).caj

04-17

基于Spark的大数据分析工具Hive的研究(毕业论文)

Hive和Spark

weixin_44870066的博客

05-17

1万+

1. Hive简介 hive的定位是数据仓库，其提供了通过 sql 读写和管理分布式存储中的大规模的数据，即 hive即负责数据的存储和管理（其实依赖的是底层的hdfs文件系统或s3等对象存储系统），也负责通过 sql来处理和分析数据。所以说，hive只用来处理结构化数据，且只提供了sql的方式来进行分析处理。而且一般来说，hive只能对数据进行批处理。（当使用hive 的hbase映射表时，有一定的实时能力；同时，flink社区也在尝试将hive实时化-这里的实时化指小时级别的实时化，达不到分钟级别）。

Spark 和 Hive之间的区别

从菜鸟到菜菜鸟

09-12

1万+

大概区别也就是：两个不同的sql翻译引擎吧！正如如下图片中所说的！ http://blog.csdn.net/dax1n/article/details/56009813

hive on spark

weixin_30607659的博客

06-02

146

装了一个多星期的hive on spark 遇到了许多坑。还是写一篇随笔，免得以后自己忘记了。同事也给我一样苦逼的人参考。先说明一下，这里说的Hive on Spark是Hive跑在Spark上，用的是Spark执行引擎，而不是MapReduce，和Hive on Tez的道理一样。先看官网的资源Hive on Spark: Getting Started 要想在Hive中使用Spar...

hive和spark

05-19

241

Hive 本质上就是将 SQL 转换为 MapReduce 作业 Spark SQL 将 SQL 转换为一系列的 RDDs 和转换关系（transformations）

Hive vs Spark

༺ bestcxx的专栏 ༻

05-12

332

先来看看二者在概念上的区别 https://zhuanlan.zhihu.com/p/79813444 再来看看二者在性能上的区别 https://zhuanlan.zhihu.com/p/79946516 结论 Hive是在Hadoop分布式文件系统上运行的开源分布式数据仓库数据库，用于查询和分析大数据。 Spark 是一个框架，需要具体的类似于 Hive 的数据库支持,Spark 基于内存分析，速度更快。 ...

大数据开发：Hadoop Hive和Spark的对比

shuimuzh123的博客

07-13

606

在大数据处理框架不断更新和优化的过程中，Hadoop和Spark之间既有竞争关系，也有相互协同的需求。比方说Hive和Spark，在一段时间内，很多人认为Spark会代替Hive，作为Hadoop的数据仓库，Hive真的已经落后了吗？这种说法我们是不赞同的，因为作为数据仓库来说，Hive和Spark之间，Spark真的没有压倒性的优势，下图我们做了一个对比—— 由上图可以看出，Spark并不适合作为数据仓库：首先，Spark本身没有自己的存储与meta库，这两者是数据仓库最核心的..

spark表和hive表的区别

weixin_42613360的博客

01-05

723

Spark 表和 Hive 表有以下区别: 技术栈不同: Spark 表使用 Spark 程序读取和写入，而 Hive 表使用 HiveQL 语句读取和写入。存储不同: Spark 表存储在 Spark 内存中，而 Hive 表存储在 Hadoop 的 HDFS 上。处理速度不同: Spark 表可以通过分布式计算和内存存储提高处理速度，而 Hive 表处理速度较慢。支持的数据源不同...

spark HIve

09-08

Spark Hive是一种将Spark与Hive集成的技术。在实际开发中，Hive的默认引擎是MR，但是由于MR的执行效率较低，无法满足开发需求，因此常常需要更换Hive的引擎。而Spark是一种快速、通用的集群计算系统，它可以使用内存...