Flink整合Hive

最新推荐文章于 2024-02-28 15:29:45 发布

落幕7

最新推荐文章于 2024-02-28 15:29:45 发布

阅读量2.1k

点赞数 1

分类专栏： # Flink 文章标签： flink hive kafka

本文链接：https://blog.csdn.net/qq_43278189/article/details/121616804

版权

Flink 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

文章目录

- Flink整合Hive

Flink整合Hive

1、将整合需要的jar包上传到flink的lib目录

#需要三个jar包
flink-sql-connector-hive-1.2.2_2.11-1.11.0.jar
hive-exec-1.2.1.jar
hive-metastore-1.2.1.jar

上传jar 之后需要重新启动yarn-session.sh（就重启flink，用的是yarn-session模式就重启这个模式）

yarn application -kill 进程id
yarn-session.sh -jm 1024m -tm 1096

2、启动hive元数据服务

 nohup hive --service metastore >> metastore.log 2>&1 &

3、如果在sql-client中使用hive的catalog

#修改sql-client-defaults.yaml
cd /usr/local/soft/flink-1.11.2/conf
vim sql-client-defaults.yaml

#添加如下内容：
catalogs: 
  - name: myhive
    type: hive
    hive-conf-dir: /usr/local/soft/hive-1.2.1/conf
    default-database: default

在这里插入图片描述

4、在sql-client中使用hive的catalog

#启动 SQL 客户端命令行界面,显式使用 embedded 模式:
sql-client.sh embedded

USE CATALOG myhive;
show tables;

在flink中创建的表在hive中就可以查看，不能查询数据
hive中的表在flink中可以查询
在这里插入图片描述

5、idea里写flinkSQL打包上传到集群运行

导入hive所需依赖包：

<dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-hive_2.11</artifactId>
            <version>1.11.2</version>
        </dependency>
<dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>1.2.1</version>
</dependency>

package com.liu.sql

import org.apache.flink.configuration.Configuration
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api._
import org.apache.flink.table.api.bridge.scala._
import org.apache.flink.table.catalog.hive.HiveCatalog

/**
 * @ Author : ld
 * @ Description : 
 * @ Date : 2021/11/29 18:44
 * @ Version : 1.0
 */
object Demo7FlinkOnHive {
  def main(args: Array[String]): Unit = {
    val bsEnv: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    val bsSettings: EnvironmentSettings = EnvironmentSettings
      .newInstance()
      .useBlinkPlanner() //使用blink的计划器
      .inStreamingMode() //使用流模型
      .build()

    //窗口table 环境
    val bsTableEnv: StreamTableEnvironment = StreamTableEnvironment.create(bsEnv, bsSettings)
    val configuration = new Configuration()
    //如果主键为null,自动删除
    configuration.setString("table.exec.sink.not-null-enforcer", "drop")
    configuration.setString("table.dynamic-table-options.enabled", "true")
    bsTableEnv.getConfig.addConfiguration(configuration)

    /**
     * 注册hive元数据
     * 可直接读取hive中的表
     */

    val name = "myhive"
    val defaultDatabase = "flink" //先去创建flink数据库
    val hiveConfDir = "/usr/local/soft/hive-1.2.1/conf"

    val hive = new HiveCatalog(name, defaultDatabase, hiveConfDir)
    //注册catalog
    bsTableEnv.registerCatalog("myhive", hive)

    // 切换catalog
    bsTableEnv.useCatalog("myhive")

    /**
     * 编写SQL，使用hive内的表
     */
    bsTableEnv.executeSql(
      """
        |insert into mysql_clazz_num
        |select clazz,count(1) as num from
        |student /*+ OPTIONS('scan.startup.mode'='latest-offset') */
        |group by clazz
        |""".stripMargin)
    
    //这是hint语法：/*+ OPTIONS('scan.startup.mode'='latest-offset') */
    //要放在每个表的后面
     


    /**
     * 打成jar包传到集群运行，别在本地运行，没有hive的那个目录
     * 打成 jar包了也就写死了（latest-offset）只能查询最新数据
     *
     * 当然在flinkSQL命令行可以动态修改参数，例如要查询所有数据：
     */
     // select * from student /*+ OPTIONS('scan.startup.mode'='earliest-offset') */;
     /**
     * 可能会报错让你开启dynamic-table。。。。。什么的，那就先执行下面命令：
     * set table.dynamic-table-options.enabled=true;
     */
  }
}

落幕7

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
Flink整合Hive

文章目录Flink整合Hive1、将整合需要的jar包上传到flink的lib目录2、启动hive元数据服务3、如果在sql-client中使用hive的catalog4、在sql-client中使用hive的catalog5、idea里写flinkSQL打包上传到集群运行Flink整合Hive1、将整合需要的jar包上传到flink的lib目录#需要三个jar包flink-sql-connector-hive-1.2.2_2.11-1.11.0.jarhive-exec-1.2.1.jarhi
复制链接

扫一扫

专栏目录