一、原理
一、Hive组件的核心
- SQL优化翻译器(执行引擎),翻译SQL到MapRedue并提交到YARN执行
- MetaStore元数据管理中心
二、Spark On Hive解决方案
- Spark提供执行引擎能力
- Hive的MetaStore提供元数据管理功能
- 让Spark和MetaStore连接起来
三、Spark On Hive的核心
- 引擎:spark
- 元数据管理:metastore
四、总结
Spark On Hive就是把Hive的MetaStore服务拿过来,给Spark做元数据管理用而已
二、配置
- 在Spark的conf目录中,创建hive-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!--告知Spark创建表存到哪里-->
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value

最低0.47元/天 解锁文章
1422

被折叠的 条评论
为什么被折叠?



