CDH6.3.2 集成flink的部署配置
一:flink的简介
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行
在 2019 年 10 月于柏林举行的 Flink Forward 活动上,Cloudera 的工程主管 Marton Balassi 和 Field CTO Andrew Psaltis 在大会上宣布,Cloudera 承诺将通过 CSA 产品不断给 Apache Flink 社区做出贡献。
相信 Cloudera 对 Apache Flink 的集成将会为社区带来更多创新、为企业及开发者提供更便捷的操作与更友好的使用体验
二:CDH6.3.2 集成flink
1.安装环境准备
介绍如何在CDH6.3中安装Flink1.9以及运行你的第一个Flink例子,以下是测试环境信息:
- CM和CDH版本为6.3.2
- CentOS7.5x64
- JDK1.8.0_181
- root用户安装
flink 的parcels 包下载地址:https://archive.cloudera.com/csa/1.0.0.0
FLINK-1.9.0-csa1.0.0.0-cdh6.3.0.jar
FLINK-1.9.0-csa1.0.0.0-cdh6.3.0-el7.parcel
FLINK-1.9.0-csa1.0.0.0-cdh6.3.0-el7.parcel.sha
FLINK-1.9.0-csa1.0.0.0-cdh6.3.0.jar manifest.json
下载需要的jar,parcel等文件
wget https://archive.cloudera.com/csa/1.0.0.0/csd/FLINK-1.9.0-csa1.0.0.0-cdh6.3.0.jar
wget https://archive.cloudera.com/csa/1.0.0.0/parcels/manifest.json
wget https://archive.cloudera.com/csa/1.0.0.0/parcels/FLINK-1.9.0-csa1.0.0.0-cdh6.3.0-el7.parcel
wget https://archive.cloudera.com/csa/1.0.0.0/parcels/FLINK-1.9.0-csa1.0.0.0-cdh6.3.0-el7.parcel.sh
2. 配置csd的jar包和部署parcel、json文件到httpd服务
复制FLINK-1.9.0-csa1.0.0.0-cdh6.3.0.jar到cloudera-manager-server服务所在节点的/opt/cloudera/csd目录下,目录权限根据实际情况看是否修改
csd文件是一个jar包,它记录了你的服务在CDH上的管理规则,比如你的服务在CDH页面上显示的图标、依赖的服务、暴露的端口、启动规则等。csd的jar包必须置于/opt/cloudera/cm/csd目录才可以在添加集群服务时被识别到。
mv FLINK-1.9.0-csa1.0.0.0-cdh6.3.0.jar /opt/cloudera/csd/
chown -R cloudera-scm:cloudera-scm /opt/cloudera/csd/
parcel文件和manifest.json文件放到目录/var/wwww/html/
mv FLINK-1.9.0-csa1.0.0.0-cdh6.3.0-el7.parcel /var/wwww/html/
mv FLINK-1.9.0-csa1.0.0.0-cdh6.3.0-el7.parcel.sha /var/wwww/html/
mv FLINK-1.9.0-csa1.0.0.0-cdh6.3.0.jar manifest.json /var/wwww/html/mv flink /var/wwww/html/
重启服务
service cloudera-scm-server restart
service httpd start
3.配置远程Parcel存储库
添加目录: http://peppa11/cm/flink-parcel/
4.下载—>>分配—>>激活,需要激活flink,要不然无法完成安装
重启Cloudera Management Service
下载
激活
5.添加flink服务
可选
6. 集群测试
执行Flink自带的example的wordcount例子。
hdfs dfs -put word.txt /tmp
flink run -m yarn-cluster -yn 4 -yjm 1024 -ytm 1024 /opt/cloudera/parcels/FLINK/lib/flink/examples/streaming/WordCount.jar --input hdfs://192.168.11.160:8020/tmp/word.txt --output hdfs://192.168.11.160:8020/tmp/result
./bin/flink run ./examples/batch/WordCount.jar
hdfs dfs -cat /tmp/result
在flink的自带的界面就能看到有job在这行并且成功了,如图所示
YARN的界面
7. 遇到的问题
下载parcel出现哈希验证失败:
解决方法
在配置文件中需要加上parcel选项,需要修改httpd.conf配置文件,添加parcel。
cd /etc/httpd/conf
然后重新进行下载parcel,发现就可以进行下载了,问题解决,然后载根据教程进行parcel的安装。