HIVE-on-Spark

最新推荐文章于 2022-11-04 13:58:33 发布

lucasmaluping

最新推荐文章于 2022-11-04 13:58:33 发布

阅读量338

点赞数

分类专栏： Spark hive

本文链接：https://blog.csdn.net/lucasmaluping/article/details/103163348

版权

Spark 同时被 2 个专栏收录

41 篇文章 1 订阅

订阅专栏

hive

3 篇文章 0 订阅

订阅专栏

hive底层是通过MR进行计算，将其改变为SparkCore来执行

配置步骤
1.在不是高可用集群的前提下，只需要将Hadoop安装目录中的core-site.xml拷贝到spark的配置conf文件目录下即可
2.将hive安装路径下的hive-site.xml拷贝到spark的配置conf配置文件目录下即可
注意：
若是高可用：需要将hadoop安装路径下的core-site,xml和hdfs-site.xml拷到spark的conf目录下

操作完成后建议重启集群
通过sparksql来操作，需要在spark安装路径中bin目录

启动：
spark-sql  \
--master spark://hdp-1:7077 \
--executor-memory 512m  \
--total-executor-cores 2 \
--jars /root/mysql-connector-java-5.1.39.jar \
--driver-class-path  /root/mysql-connector-java-5.1.39.jar
基本操作：
1.创建表：
create table person1(id int,name string,age int) row format delimited fields terminated by ' '
2.加载数据：(本地加载)
load data local inpath '/root/person.txt' into table person1;
3.查询：
select * from person1;
select name,age from person1 where age > 20 order by age;
4.删除
drop table person1

hive on Spark是由Cloudera发起，由Intel、MapR等公司共同参与的开源项目，其目的是把Spark作为Hive的一个计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目，可以提高Hive查询的性能，同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择，从而进一步提高Hive和Spark的普及率。

Hive On Spark （跟hive没太大的关系，就是使用了hive的标准（HQL，元数据库、UDF、序列化、反序列化机制））

Hive原来的计算模型是MR,有点慢（将中间结果写入到HDFS中）

Hive On Spark 使用RDD（DataFrame），然后运行在spark 集群上

真正要计算的数据是保存在HDFS中，mysql这个元数据库，保存的是hive表的描述信息，描述了有哪些database、table、以及表有多少列，每一列是什么类型，还要描述表的数据保存在hdfs的什么位置？

hive跟mysql的区别？

hive是一个数据仓库（存储数据并分析数据，分析数据仓库中的数据量很大，一般要分析很长的时间）

mysql是一个关系型数据库（关系型数据的增删改查（低延迟））

hive的元数据库中保存要计算的数据吗？

不保存，保存hive仓库的表、字段、等描述信息

真正要计算的数据保存在哪里了？

保存在HDFS中了

hive的元数据库的功能

建立了一种映射关系，执行HQL时，先到MySQL元数据库中查找描述信息，然后根据描述信息生成任务，然后将任务下发到spark集群中执行

hive on spark 使用的仅仅是hive的标准，规范，不需要有hive数据库一样可行。

hive : 元数据，是存放在mysql中，然后真正的数据是存放在hdfs中

lucasmaluping

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HIVE-on-Spark

hive底层是通过MR进行计算，将其改变为SparkCore来执行配置步骤1.在不是高可用集群的前提下，只需要将Hadoop安装目录中的core-site.xml拷贝到spark的配置conf文件目录下即可2.将hive安装路径下的hive-site.xml拷贝到spark的配置conf配置文件目录下即可注意：若是高可用：需要将hadoop安装路径下的core-site,xml和hdfs...
复制链接

扫一扫

专栏目录