Flink简介及环境安装部署、词频统计实例、WordCount源码分析

最新推荐文章于 2024-01-21 03:33:50 发布

29DCH

最新推荐文章于 2024-01-21 03:33:50 发布

阅读量1k

点赞数 1

分类专栏： Flink Spark大数据生态圈学习总结及项目实战文章标签： Flink

本文链接：https://blog.csdn.net/CowBoySoBusy/article/details/83026073

版权

本文介绍了Flink作为分布式处理引擎的基本概念，提供了根据Hadoop和Scala版本安装Flink的指导，详细步骤包括下载、解压、启动Flink本地服务，并通过浏览器访问UI界面。接着，通过执行WordCount示例，展示了如何运行自带的jar包进行词频统计。文章还分析了WordCount的Scala源码，强调了核心代码的简洁优雅，鼓励读者深入理解Flink的底层工作原理。

摘要由CSDN通过智能技术生成

Flink 是一个针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。
具体见官网介绍，我就不多说了
https://flink.apache.org/
根据自己hadoop和scala的版本安装对应版本的Flink
在这里插入图片描述
下载好解压缩到指定目录，cd进去bin目录
下面操作具体参考官方文档快速启动
https://ci.apache.org/projects/flink/flink-docs-release-1.6/quickstart/setup_quickstart.html
启动本地Flink

./start-cluster.sh

在这里插入图片描述
浏览器输入http://localhost:8081可以看到UI界面

单词统计实例：
jar包所在位置(安装包自带)
在这里插入图片描述
依次输入：

./flink run ../examples/batch/WordCount.jar \ 
--input file:///home/zq/Desktop/test.txt --output file:///home/zq/Desktop/flink_wordcount_out.txt

还可以加很多参数，达到不同的效果，还能跑在YARN上，见https://ci.apache.org/projects/flink/flink-docs-release-1.6/ops/cli.html

成功示范如下：
在这里插入图片描述

网页也显示对应job是finished

分析一波WordCount.jar这个jar包的scala源码，当然你也可以选择看java版的，看看Flink底层是怎么进行词频统计的，其实挺简单的，没有那么复杂．
在这里插入图片描述
源码github网址 https://github.com/apache/flink/blob/master/flink-examples/flink-examples-batch/src/main/scala/org/apache/flink/examples/scala/wordcount/WordCount.scala
我稍微注释了代码的关键部分如下