初探Flink与第一个Flink程序-wordcount

最新推荐文章于 2024-07-24 16:31:12 发布

apprentices

最新推荐文章于 2024-07-24 16:31:12 发布

阅读量500

点赞数

分类专栏： Flink学习文章标签： Flink wordCount

本文链接：https://blog.csdn.net/apprentices/article/details/99671084

版权

Flink学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Flink简介

Apache flink是一个开源的分布式、高性能、高可用、准确的流处理框架，可对有限数据流和无限数据流进行有状态计算，可部署在各种集群环境下（local，standalone,yarn，以及云端）。统一的大数据分析和流计算、批计算及机器学习引擎，flink原生支持了迭代计算，内存管理和程序优化。Flink架构图如下（从官网拷贝）：

注：有限数据流是指有限的不会改变的数据集合使用批处理属于离线运算（类似于直梯工作一般，把一批一批用户送往目的地），无限数据流是指数据流源源不断的产生，通常使用流式计算（类似于手扶梯工作一般，每来一个人就把其开始送往目的地），无限数据流有：点击流，传感器测量数据，金融市场产生的数据，服务器上的日志文件等等。

大数据处理模式：

离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示

实时计算：数据实时产生、传递、计算、显示

流式计算：流水线形式的计算

批处理：在预先定义的时间内运行计算，当完成时释放计算资源

离散计算：今天早上一点，把昨天累积的日志，计算出所需结果。一般累积时间较长，计算量级较大，计算时间也较长实时计算：与离线计算相比，运行时间短（人可以等待的时间），计算量级相对较小。强调计算过程的时间要短，即所查当下给出结果;

实时计算，强调的是实时。比如小明要查看他去年一年的消费总额度，那么当小明点下统计按钮的时候，服务器集群就需要赶紧计算了，且必须在小明能够忍耐的时间范围内得出结果。实时计算与离线计算的最大区别，就是离线计算是人无法忍耐的时间进行计算，因此人不需要等待，把任务丢给计算机后，自己该干嘛就去干嘛。

流式计算：与实时计算相比，时效稍微慢些，实时计算是以主动查询来触发，流式计算是以事务发生及结果变更为触发。与实时计算相比，时效稍微慢些，实时计算是以主动查询来触发，流失计算是以事务发生及结果变更为触发。比如，服务器端，有一个值，是记录小明订单数量。当小明每买一件东西后，服务端立即发出一个交易成功的事件，该值接收到这个事件后就立即加1。如果用离线计算的方式来做，估计是在查询时，才慢腾腾的从低速存储中，把小明的所有订单取出来，统计数量。

批处理：在批处理方式中，数据首先被存储，随后被分析。MapReduce是非常重要的批处理模型。MapReduce的核心思想是，数据首先被分为若干小数据块chunks，随后这些数据块被并行处理并以分布的方式产生中间结果，最后这些中间结果被合并产生最终结果。MapReduce分配与数据存储位置距离较近的计算资源，以避免数据传输的通信开销。由于简单高效，MapReduce被广泛应用于生物信息、web挖掘和机器学习中。

离线和实时指的是：数据处理的延迟；

批量和流式指的是：数据处理的方式。

Flink的流处理和批处理

在大数据处理领域，批处理任务与流处理任务一般被认为是两种不同的任务，一个大数据框架一帮会被设计为只能处理其中一种任务，例如Storm只支持流处理任务，而Map + Reduce spark只支持批处理任务，Spark Streaming是spark之上支持流处理任务的子系统，采用一种micro-batch架构，把输入的数据流切分成细粒度的batch，并未每一个batch数据提交一个批处理的spark任务，所以spark Streaming本质上还是基于spark批处理系统对流式数据进行处理。

Flink通过灵活的执行引擎，能够同时支持批处理任务与流处理任务，在执行引擎这一层流处理系统和批处理系统最大的不同在于节点间数据传输方式。流处理系统：当一条数据被处理完成之后，序列化到缓存中，然后立刻通过网络传输到下一个节点，由下一个节点继续处理---低延迟；批处理系统：当一条数据完成后，序列化到缓存中，不会立刻传输到下一个节点，而是当缓存写满后，就持久化到本地硬盘，当所有数据都处理完成后，才会通过传输给下一个节点---高吞吐量。Flink执行引擎采用了一种灵活的方式，通过设置缓存块超时值来控制数据传输，当超时值为0时，相当于流处理系统—最低的处理延迟；当超时值为无限大时，则flink的数据传输方式类似批处理系统—最高吞吐量。

Flink的运行时架构

角色主要有client(客户端), JobManager (master管控节点),TaskManager(slave) 角色间通信（AKKA）,数据的传输（Netty）。

TaskManager是进程，下面运行的是task线程，每个task/subtask线程下可以运行一个或者多个operator，及OperatorChain。

Task 是class，subtask是object。

一个taskmanager通过slot（任务槽）来控制他上面可以接受多少个task（仅限内存托管，目前CPU未做隔离）slot均分TaskManager所托管的内存

同一个Taskmanager中的task共享TCP连接（通过多路复用）和心跳信息，他们还可以共享数据集合数据结构，从而减少每个任务的开销。

Flink入门案例--wordcount

idea+maven+git模式

第一步.创建maven项目--在控制台下输入

mvn archetype:generate

-DarchetypeGroupId=org.apache.flink

-DarchetypeArtifactId=flink-quickstart-java

-DarchetypeCatalog=https://repository.apache.org/content/repositories/snapshots/

-DarchetypeVersion=1.10-SNAPSHOT

注：对于Maven 3.0或更高版本，不再可以通过命令行指定存储库（-DarchetypeCatalog），可通过指定版本来解决问题.

mvn org.apache.maven.plugins:maven-archetype-plugin:2.4:generate -DarchetypeGroupId=org.apache.flink -DarchetypeArtifactId=flink-quickstart-java -DarchetypeVersion=${1:-1.9-SNAPSHOT} -DgroupId=org.myorg.quickstart -DartifactId=$PACKAGE -Dversion=0.1 -Dpackage=org.myorg.quickstart -DinteractiveMode=false -DarchetypeCatalog=https://repository.apache.org/content/repositories/snapshots/

第二步从idea打开创建好的maven项目

创建好的项目目录如下所示：

从https://github.com/apache/flink/tree/master/flink-examples/flink-examples-streaming/src/main/java/org/apache/flink/streaming/examples链接找到wordcount代码，即可，如下

核心代码如下：

DataSet<Tuple2<String, Integer>> counts =
  // split up the lines in pairs (2-tuples) containing: (word,1)
  text.flatMap(new Tokenizer())
  // group by the tuple field "0" and sum up tuple field "1"
  .groupBy(0)
  .sum(1);

结果如下所示