一、背景
最近在尝试使用Flink,由于不太懂,所以找了几台测试机器搭了个集群,准备等熟悉了再用On Yarn,主要是Hadoop现在不是我负责管理,用起来不太方便。
在开发了作业运行起来过后,就出现了一个问题,就是状态后端放在哪里。In Memory肯定是不行的,这个时候我已经准备把这个作业用到生产中了,要是作业足够稳定的话。为什么需要用到状态后端呢,一个是因为有部分数据加载到DataStream需要较长的时间,而在这个加载的时间中,会导致作业的输出完全是错误的(其实就是有用到两张Flink表作关联,其中一张表需要用到全量数据)。另外一点,就是数据从kafka读入,处理过后再吐到kafka,这个过程在作业重启过后需要能衔接上。
二、配置
1、需要的文件
- keytab:user.keytab,这个需要找Hadoop管理员获取。
- principle:一般可以从keytab文件中获取,获取命令,klist -kt ./user.keytab
- kerberos配置文件:这个也需要找Hadoop管理员提供。
- Hadoop的配置文件:即HADOOP_HOME/etc/hadoop路径下的core-site.xml和hdfs-site.xml(也可以将文件夹复制过去)
2、配置
(1)、首先配置HADOOP_CONF_DIR,就是放core-site.xml和hdfs-site.xml的路径,配置方式,将
export HADOOP_CONF_DIR=/kafka/flink/hado

本文介绍了在Flink中配置Hadoop、HDFS作为状态后端,并与Kerberos进行集成以实现安全认证的过程。详细讲述了所需的keytab文件、kerberos配置文件、Hadoop配置文件的准备,以及在Flink的启动脚本和配置文件中进行的相关设置。成功配置后,通过日志确认了Kerberos登录的成功。
最低0.47元/天 解锁文章
1724

被折叠的 条评论
为什么被折叠?



