Spark连接访问Hive数据

	Spark可以直接与Hive进行交互,读取Hive的数据,并在Spark中进行数据分析。以下为Spark读取Hive数据的具体操作步骤。
  1. 配置Hive的thrift服务

    进入Hive的配置目录,我的Hive安装在/usr/local目录下,打开hive-site.xml文件

    cd /usr/local/hive/conf
    gedit hive-site.xml
    
  2. 在hive-site.xml中添加thrift服务的配置。
    在这里插入图片描述
    完整的Hive-site.xml配置内容如下所示:

    <?xml version="1.0" encoding="UTF-8" standalone="no"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    <configuration>
      <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive/warehouse</value>
      </property>
        <!--- 使用本地服务连接Hive,默认为true-->
      <property>
        <name>hive.metastore.local</name>
        <value>true</value>
      </property>
      <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false</value>
        <description>JDBC connect string for a JDBC metastore</description>
      </property>
      <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
        <description>Driver class name for a JDBC metastore</description>
      </property>
      <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
        <description>username to use against metastore database</description>
      </property>
      <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>123456</value>
        <description>password to use against metastore database</description>
      </property>
      <property>
        <name>hive.metastore.schema.verification</name>
        <value>true</value>
      </property>
      <property>
        <name>datanucleus.schema.autoCreateAll</name>
        <value>true</value>
      </property>
      
       <!-- 配置hive thrift服务-->
      <property>
          <name>hive.metastore.uris</name>
          <value>thrift://localhost:9083</value>
      </property>
    </configuration>
    
  3. 开启thrift端口

    #启动hadoop集群
    start-all.sh
    #开启hive端口
    nohup hive --service metastore &
    
  4. 在IDEA中创建一个Maven项目。

    JDK选择1.8,Archetype为[org.apache.maven.archetypes:maven-archetype-site-simple],点击[create]创建项目。
    在这里插入图片描述

  5. 添加Scala依赖。

    按顺序点击顶部菜单栏中[File]->[Project Structure],配置项目架构结构配置。
    在这里插入图片描述

    在项目结构配置中,选择[Global Libraries]->[+]->[Scala SDK](如果没有Scala SDK选项的同学 ,需要自己在IDEA中下载Scala插件)。
    在这里插入图片描述

    选择Spark对应的Scala SDK版本,本案例使用的是Spark3.2.1,支持Scala版本为2.12。点击OK,完成Scala配置。
    在这里插入图片描述

    在[src/main/]目录下创建一个scala文件夹,并设置为源目录,专用于存放Scala代码。
    在这里插入图片描述

  6. 在pom.xml文件中添加以下依赖和打包插件。

        <properties>
         <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
         <scala.binary.version>2.12</scala.binary.version>
         <spark.version>3.2.1</spark.version>
         <mysql.version>5.1.49</mysql.version>
     </properties>
       <dependencies>
            <!--Spark 依赖 -->
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-core_${scala.binary.version}</artifactId>
                <version>${spark.version}</version>
            </dependency>
           <!--Spark SQL依赖包-->
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-sql_${scala.binary.version}</artifactId>
                <version>${spark.version}</version>
            </dependency>
    
            <!--Mysql 连接-->
            <dependency>
                <groupId>mysql</groupId>
                <artifactId>mysql-connector-java</artifactId>
                <version>${mysql.version}</version>
            </dependency>
    
            <!--添加Spark连接Hive工具包-->
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-hive_${scala.binary.version}</artifactId>
                <version>${spark.version}</version>
            </dependency>
        </dependencies>
        <build>
            <plugins>
                <!-- 该插件用于将Scala代码编译成class文件 -->
                <plugin>
                    <groupId>net.alchim31.maven</groupId>
                    <artifactId>scala-maven-plugin</artifactId>
                    <version>4.4.0</version>
                    <executions>
                        <execution>
                            <!-- 声明绑定到maven的compile阶段 -->
                            <goals>
                                <goal>compile</goal>
                            </goals>
                        </execution>
                    </executions>
                </plugin>
    
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-assembly-plugin</artifactId>
                    <version>3.3.0</version>
                    <configuration>
                        <descriptorRefs>
                            <descriptorRef>
                                jar-with-dependencies
                            </descriptorRef>
                        </descriptorRefs>
                    </configuration>
                    <executions>
                        <execution>
                            <id>make-assembly</id>
                            <phase>package</phase>
                            <goals>
                                <goal>single</goal>
                            </goals>
                        </execution>
                    </executions>
                </plugin>
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-compiler-plugin</artifactId>
                    <configuration>
                        <source>8</source>
                        <target>8</target>
                    </configuration>
                </plugin>
            </plugins>
        </build>
    

    完成pom.xml文件配置后,刷新工程,加载依赖包。

  7. 在IDEA中创建一个Scala类。
    在这里插入图片描述

    类名为SparkOnHiveDemo,类型选择Object
    在这里插入图片描述

    在SparkOnHiveDemo类中添加以下代码,查看Hive数据库。

    import org.apache.spark.sql.SparkSession
    
    object SparkOnHiveDemo {
      def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder()
          .master("local[*]")
          .appName(this.getClass.getName)
          .enableHiveSupport()    //开启Hive模式
          .config("hive.metastore.uris", "thrift://localhost:9083") //连接Hive thrift端口
          .getOrCreate()
    
        //使用Spark SQL方法,查看Hive数据库。
        spark.sql("show databases").show()
      }
    }
    

    运行结果如下。
    在这里插入图片描述

    同时,我们也可以进入到Hive CLI界面使用同样的SQL指令查看结果进行对比。
    在这里插入图片描述

    查询出来的结果一致,表示Spark可以正常访问Hive的数据,并在Hive中进行数据分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值