SparkSQL和Hive集群整合详解

最新推荐文章于 2022-12-09 12:55:40 发布

LBJ_小松鼠

最新推荐文章于 2022-12-09 12:55:40 发布

阅读量529

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/m0_49834705/article/details/112790063

版权

Spark 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

简介: 代码谁都会敲,关键是要逻辑要清楚

1-为什么出现SparkOnHive(SparkSQL)？
- 1-本质上SparkOnHive为了解决Hive计算的速度慢的问题
- 2-现在在工业场景中更多的离线分析都是基于Hive+Spark的整合
2-注意：
SparkOnHive仅仅使用了Hive的元数据的信息，其他都是用spark的技术
需要将hive的hive-site.xml拷贝到spark/conf中实现spark知晓hive的元数据信息、
3-步骤：
1-原理：需要整合Hive的元数据的信息，启动metastor的服务

1. SparkSQL 整合Hive

第一步：将hive-site.xml拷贝到spark安装路径conf目录

因为Hive仅仅只是一个操作MapReduce的一个客户端工具,所以我就在我的第三台主机上安装了Hive

在node3执行以下命令来拷贝hive-site.xml到所有的spark安装服务器上面去

cd /export/server/hive/conf
cp hive-site.xml /export/server/spark/conf/
scp hive-site.xml root@node2:/export/server/spark/conf/
scp hive-site.xml root@node1:/export/server/spark/conf/

第二步：将mysql的连接驱动包拷贝到spark的jars目录下

node3执行以下命令将连接驱动包拷贝到spark的jars目录下，三台机器都要进行拷贝
cd /export/server/hive/lib
cp mysql-connector-java-5.1.38.jar  /export/server/spark/jars/
scp mysql-connector-java-5.1.38.jar  root@node2:/export/server/spark/jars/
scp mysql-connector-java-5.1.38.jar  root@node1:/export/server/spark/jars/

第三步：Hive开启MetaStore服务

1: 修改 hive/conf/hive-site.xml 新增如下配置
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
      <name>hive.metastore.warehouse.dir</name>
      <value>/user/hive/warehouse</value>
    </property>
    <property>
      <name>hive.metastore.local</name>
      <value>false</value>
    </property>
    <property>
      <name>hive.metastore.uris</name>
      <value>thrift://node3:9083</value>
    </property>
 </configuration>

2: 后台启动 Hive MetaStore服务
nohup /export/server/hive/bin/hive --service metastore &
或者
nohup /export/server/hive/bin/hive --service metastore 2>&1 >> /var/log.log &

在这里插入图片描述
第四步：测试Sparksql整合Hive是否成功

先启动hadoop集群，在启动spark集群，确保启动成功之后node01执行命令：

Spark-Shell方式启动：
bin/spark-shell --master local[3]
spark.sql("show databases").show

看到数据的结果，说明sparksql整合hive成功！
日志太多，我们可以修改spark的日志输出级别(conf/log4j.properties)

在这里插入图片描述
Hive中创建的表可以在Spark shell中看见

2. IDEA集成Hive

1.准备:
在这里插入图片描述
2. 配置文件中解释

3-注意 设置sql的shuffle的参数
spark.default.parallieize只能用于sparkcore的rdd的shuffle中
官网截图

4-代码

/**
 * @author liu a fu
 * @date 2021/1/18 0018
 * @version 1.0
 * @DESC: 整合Hive和SparkSQL
 *      1-准备SparkSession的环境
 *      2-使用spark.sql(hive的创建数据库的语句)
 *      3-使用spark.sql(hive的创建表的语句)
 *      4-使用spark.sql(hive的展示数据库表的语句)
 *      5-使用spark.sql(hive的加载本地文件的数据)
 *      6-使用spark.sql查询
 *      7-停止sparksession
 */
object SparkToHive {
  def main(args: Array[String]): Unit = {
    //1-准备SparkSession的环境
    val spark: SparkSession = SparkSession.builder()
      .appName(this.getClass.getSimpleName.stripSuffix("$"))
      .master("local[4]")
      .enableHiveSupport()
      .config("spark.sql.shuffle.partitions", "4")//默认200
      //元数据的信息放在那里
      //thrift的地址是哪个
      //指定hive元数据在hdfs上的位置
      .config("spark.sql.warehouse.dir", "hdfs://node1:8020/user/hive/warehouse")
      // 指定Hive MetaStore服务地址，客户端连接metastore服务，metastore再去连接MySQL数据库来存取元数据有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务即可。 
      .config("hive.metastore.uris", "thrift://node3:9083")   //Hive安装的位置
      // TODO: 告诉Spark要集成Hive，读取Hive表的数据
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")


    //2-使用spark.sql(hive的创建数据库的语句)
    spark.sql("show databases")
    spark.sql("use sparkhive")
    //3-使用spark.sql(hive的创建表的语句)
    spark.sql("create table student(id  int,name String,age int) row format delimited fields terminated by \",\"")
    //4-使用spark.sql(hive的展示数据库表的语句)
    spark.sql("load data local inpath 'data/input/sql/hive/student.csv' overwrite into table student")

    //5-使用spark.sql(hive的加载本地文件的数据)
    //6-使用spark.sql查询
    spark.sql("desc student").show()
    spark.sql("select * from student").show()

    //7-停止sparksession
    spark.stop()
  }

}

在这里插入图片描述

LBJ_小松鼠

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL和Hive集群整合详解

简介: 代码谁都会敲,关键是要逻辑要清楚1-为什么出现SparkOnHive(SparkSQL)？1-本质上SparkOnHive为了解决Hive计算的速度慢的问题2-现在在工业场景中更多的离线分析都是基于Hive+Spark的整合2-注意：SparkOnHive仅仅使用了Hive的元数据的信息，其他都是用spark的技术需要将hive的hive-site.xml拷贝到spark/conf中实现spark知晓hive的元数据信息、3-步骤：1-原理：需要整合Hive的元数据的信息，启
复制链接

扫一扫