Spark2.x整合Hive

最新推荐文章于 2024-08-09 08:53:03 发布

bokzmm

最新推荐文章于 2024-08-09 08:53:03 发布

阅读量1.6k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/bokzmm/article/details/87857881

版权

spark 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

一、开发环境

spark:2.1.1
hive:1.2.2
hadoop:2.7.6
开发工具：Idea

二、在Idea中创建maven项目，pom文件引入以下依赖。

<dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
      <scope>test</scope>
    </dependency>
    <!-- spark-core依赖 -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.11</artifactId>
      <version>2.1.1</version>
    </dependency>
    <!-- spark-sql依赖 -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.1.1</version>
    </dependency>
    <!-- spark和hive整合的依赖 -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-hive_2.11</artifactId>
      <version>2.1.1</version>
    </dependency>
    <!-- mysql驱动包依赖 -->
    <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.38</version>
    </dependency>
  </dependencies>

三、将core-site.xml、hdfs-site.xml、hive-site.xml拷贝到项目的resources目录下，spark应用根据这些配置文件连接hive。

四、编写spark测试程序，读取hive中某个表的信息并打印到控制台。

object SparkOnHiveTest {

  def main(args: Array[String]): Unit = {
    //1.创建sparkConf
    val conf = new SparkConf().setMaster("local[*]")
      .setAppName("sparkOnHive")
    //2.创建sparkSession
    val spark = SparkSession.builder()
      .config(conf)
        .config("spark.sql.warehouse.dir","./spark-warehouse")
      .enableHiveSupport()
      .getOrCreate()
    //3.读取hive信息
    spark.sql("use bigdata")
    val resultDF: DataFrame = spark.sql("select * from page_click")
    //4.打印结果
    resultDF.show(10)
    //5.关闭会话
    spark.close()
  }

}

五、查询结果如下：