PySpark之Spark On Hive

一、原理

一、Hive组件的核心

  • SQL优化翻译器(执行引擎),翻译SQL到MapRedue并提交到YARN执行
  • MetaStore元数据管理中心

二、Spark On Hive解决方案

  • Spark提供执行引擎能力
  • Hive的MetaStore提供元数据管理功能
  • 让Spark和MetaStore连接起来

三、Spark On Hive的核心

  • 引擎:spark
  • 元数据管理:metastore

四、总结

Spark On Hive就是把Hive的MetaStore服务拿过来,给Spark做元数据管理用而已

二、配置

  1. 在Spark的conf目录中,创建hive-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!--告知Spark创建表存到哪里-->
    <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive/warehouse</value
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值