Flink本地环境搭建详解(附实例)

  • 目的

  1. 熟悉分布式大数据流式处理的概念和常用技术;
  2. 了解开源分布式流处理框架Flink的相关知识;
  3. 掌握 Linux 下的 Flink 安装步骤、配置方法和运行管理。
  • 内容

  1. Linux 环境配置;
  2. Flink 依赖包的安装、配置和运行;
  3. Flink 的安装、配置、运行和管理;
  4. WordCount 实例的使用。
  • 准备 

  1. Java8;https://www.java.com/zh_CN/download/mac_download.jsp 
  2. flink-1.7.2-bin-hadoop28-scala_2.12.tar。Index of /apache/flink
  • 步骤

   1> 安装 JAVA,不做详细阐述;

   2> 将 Flink-1.7.2.tar 解压到 /Documents/Flink/ 文件夹中;

tar -zxf flink-1.7.2-bin-hadoop28-scala_2.12.tar

   3> 配置 FLINK_HOME 环境变量,执行生效;

sudo vim /etc/profile
export JAVA_HOME="/Library/Java/JavaVirtualMachines/jdk1.8.0_221.jdk/Contents/Home"
CLASS_PATH="$JAVA_HOME/lib"
export FLINK_HOME="$HOME/Documents/Flink/flink-1.7.2"
PATH=".$PATH:$JAVA_HOME/bin:$FLINK_HOME/bin"
. /etc/profile

   4> 启动 Flink;

start-cluster.sh 

   5> 执行 Jps 查看启动情况;

21959 Jps
20744 StandaloneSessionClusterEntrypoint
21162 TaskManagerRunner

   6> 访问 http://localhost:8081

  7> 准备运行 WordCount,在 /Documents/Flink/ 目录下新建文件 WordCountInput,存放输入单词;

Hello Flink
LOVE

 8> 运行 WordCount,统计单词数,查看运行结果;

flink run $FLINK_HOME/examples/streaming/WordCount.jar --input $HOME/Documents/Flink/WordCountInput
Starting execution of program
Printing result to stdout. Use --output to specify output path.
Program execution finished
Job with JobID 092e5f083421aa0ce445fc8910db0699 has finished.
Job Runtime: 127 ms

  9> 查看 $FLINK_HOME/log 下输出文件;

tail $FLINK_HOME/log/flink-leeway-taskexecutor-3-LeewaydeMacBook-Pro.local.out
(hello,1)
(flink,1)
(love,1)

10>查看 Completed Jobs。

开启Hadoop集群并以YARN上的perjob模式运行Flink作业大致可以分为以下步骤: 1. 启动Hadoop集群:确保Hadoop集群已经正确配置并且所有节点都处于运行状态。这通常涉及到启动NameNode和DataNodes等关键服务。 2. 配置YARN资源管理器:确保YARN的ResourceManager(通常位于NameNode上)正在运行,并且配置了足够的资源供Flink作业使用。 3. 设置Hadoop和YARN环境:在运行Flink作业的机器上配置Hadoop和YARN的环境变量,包括HADOOP_CONF_DIR和YARN_CONF_DIR,以便Flink可以找到Hadoop和YARN的配置文件。 4. 部署Flink环境:确保在运行作业的节点上已经部署了Flink,并且环境变量$FLINK_HOME正确指向Flink的安装目录。 5. 运行Flink作业: 使用`yarn-session.sh`脚本启动一个YARN Session是Flink的默认行为,但这不适用于perjob模式。在perjob模式下,你需要使用Flink的命令行工具直接提交作业。 下面是一个命令示例,用于启动WordCount作业: ```sh $FLINK_HOME/bin/flink run -m yarn-cluster -p <parallelism> $FLINK_HOME/examples/batch/WordCount.jar ``` 这里`-m yarn-cluster`指定运行模式为YARN集群模式,`-p <parallelism>`指定作业的并行度,`$FLINK_HOME/examples/batch/WordCount.jar`是作业的JAR包路径。 6. 监控作业执行:作业启动后,可以通过YARN的ResourceManager Web UI来监控作业的执行状态。 7. 查看作业结果:作业完成后,可以通过指定的输出目录来查看WordCount的结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值