Apache Flink——快速入门(章节一)

Apache Flink

概述

Flink是构建在数据流之上的有状态计算的流计算框架,通常被⼈们理解为是第三代⼤数据分析⽅案。

  1. 第一代-Hadoop的MapReduce计算、Storm的流计算(2014.9);两套独立的计算引擎,使用起来难度较大
  2. 第二代-SparkRDD静态批处理(2014.2),DStream,Structured Streaming流计算,统一计算引擎,使用难度小
  3. 第三代-Flink DataStream流计算框架(2014.10),Flink DataSet批处理,同意计算引擎,难度系数还行。

可以看出Spark和Flink⼏乎同时诞⽣,但是Flink之所以发展慢,是因为早期⼈们对⼤数据的分析的认知
不够深刻或者当时业务场景⼤都局限在批处理领域,从⽽导致了Flink的发展相⽐较于Spark较为缓慢,
直到2016年⼈们才开始慢慢的意识流计算的重要性。

流计算领域:系统监控、舆情监控、交通预测、国家电⽹、疾病预测、银⾏/⾦融⻛控等

Spark vs Flink架构

架构比较

Flink基本概念解释

Task与Operator Chain

Flink是一个分布式流计算引擎,将一个计算job拆分成多个Task,每个Task都有自己的并行度,每个并行度有一个线程表示,Flink称这些并行的线程为Task的SubTask(子任务),Flink是通过Operator Chain的概念来实现Task的划分。Operator Chain指的是Flink在对job进行编织的时候,尝试把多个操作符算子进行串联到一个Task上,以减少线程到线程的数据传输开销,目前常见的Flink的Operator Chain的方式有两种:forward与hash|reblance.
在这里插入图片描述

  • Task-每个任务阶段
  • SubTask-等价一个线程,是Task的子任务
  • OperatorChain-将多个算子归并到一个Task的机制
JobManager,TaskManager,Client
  • JobManager-也称master,负责协调分布式执行。负责任务调度,协调检查点,协调故障恢复等。通常一个集群中至少得有一个Active的JobManager节点。
  • TaskManager-也称worker,.真正执行Task计算的节点,同时需要负责向JobManager汇报自身状态信息和工作负荷,通常一个集群中由若干个TaskManager.
  • Client-并不是Flink集群中计算的一部分,仅仅是负责提交任务的DataFlow Graph给JobManager,提交完成后,可以直接退出。
    在这里插入图片描述
TaskSlot与Resources

每一个Worker(TaskManager)都是一个JVM进程,可以执行一个或者多个SubTask,为了使得Worker能接受多个Task,Flink使用TaskSlot表示一个计算节点的计算能力,一个计算节点至少得有一个TaskSlot.

每个TaskSlot表示的是TaskManager节点计算资源的固定子集,例如,一个节点有3个TaskSlot,每个Slot表示内存资源的1/3。每个Job在运行时候已经被分配好了TaskSlot,这样就避免了不同Job运行时资源争抢的问题,这些被分配的TaskSlot只能被当前Job的Task使用,不同Job的Task不存在资源共享和抢占的问题。

但是一个job会被拆分成多个Task,一个Task又有多个SubTask(取决于并行度),默认同一个TaskSlot只能在同一个Job的不同Task的SubTask之间进行共享,而相同Task的SubTask则不能共享TaskSlot。

相同Job间的不同Task的SubTask不进行资源共享,则会导致资源的浪费。例如下图中的source,map操作定义为资源稀疏操作,占用内存量少,而keyBy,window,apply需要shuffle对内存比较吃紧。
在这里插入图片描述
因此Flink底层默认相同Job不同Task的SubTask共享TaskSlot资源,因此用户可以将并行度进行调整,由2->6,这样Flink就会做以下的资源分配。
在这里插入图片描述

因此,一个Job运行所需的TaskSlot个数应该等于Task并行度的最大值,Flink的Job所需资源是自己计算出来的,无需用户指定,用户只需要设定并行度即可。

环境安装

前提条件
  • jdk必须是1.8+,必须配置JAVA_HOME
  • 保证Hadoop正常运行,ssh免密,HADOOP_HOME等。
Flink安装(standalone)
  • 上传安装包并解压
[root@CentOS ~]# tar -zxf flink-1.10.0-bin-scala_2.11.tgz -C /usr/

-配置flink-conf.yaml

[root@CentOS flink-1.10.0]# vi conf/flink-conf.yaml

#==============================================================================
# Common
#==============================================================================
jobmanager.rpc.address: CentOS
taskmanager.numberOfTaskSlots: 4
parallelism.default: 3
  • 配置slaves
[root@CentOS flink-1.10.0]# vi conf/slaves

CentOS
  • 启动Flink
[root@CentOS flink-1.10.0]# ./bin/start-cluster.sh
Starting cluster.
Starting standalonesession daemon on host CentOS.
Starting taskexecutor daemon on host CentOS.
[root@CentOS flink-1.10.0]# jps
6978 NameNode
7123 DataNode
109157 StandaloneSessionClusterEntrypoint
7301 SecondaryNameNode
109495 TaskManagerRunner
109544 Jps
  • 检查是否启动成功
    ⽤户可以访问Flink的WEB UI地址:http://CentOS:8081
    在这里插入图片描述

入门案例

  • 导入依赖
<dependency>
 <groupId>org.apache.hadoop</groupId>
 <artifactId>hadoop-client</artifactId>
 <version>2.9.2</version>
</dependency> <dependency>
 <groupId>org.apache.flink</groupId>
 <artifactId>flink-streaming-scala_2.11</artifactId>
 <version>1.10.0</version>
</dependency>
  • Client程序
import org.apache.flink.streaming.api.scala._
object FlinkWordCountQiuckStart {
 def main(args: Array[String]): Unit = {
 //1.创建流计算执⾏环境
 val env = StreamExecutionEnvironment.getExecutionEnvironment
 //2.创建DataStream - 细化
 val text = env.socketTextStream("CentOS", 9999)
 //3.执⾏DataStream的转换算⼦
 val counts = text.flatMap(line=>line.split("\\s+"))
 .map(word=>(word,1))
 .keyBy(0)
 .sum(1)
 //4.将计算的结果在控制打印
 counts.print()
 //5.执⾏流计算任务
 env.execute("Window Stream WordCount")
 }
}
  • 引入maven打包插件
<build>
        <plugins>
            <!--scala编译插件-->
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>4.0.1</version>
                <executions>
                    <execution>
                        <id>scala-compile-first</id>
                        <phase>process-resources</phase>
                        <goals>
                            <goal>add-source</goal>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <!--创建fatjar插件-->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.4.3</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
            <!--编译插件-->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                    <encoding>UTF-8</encoding>
                </configuration>
                <executions>
                    <execution>
                        <phase>compile</phase>
                        <goals>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
  • 使用maven package打包
  • 使用web UI提交任务

在这里插入图片描述
在这里插入图片描述

程序部署

本地执行
//1.创建流计算执⾏环境
val env = StreamExecutionEnvironment.createLocalEnvironment(3)
 //2.创建DataStream - 细化
 val text = env.socketTextStream("CentOS", 9999)
 //3.执⾏DataStream的转换算⼦
 val counts = text.flatMap(line=>line.split("\\s+"))
 .map(word=>(word,1))
 .keyBy(0)
 .sum(1)
 //4.将计算的结果在控制打印
 counts.print()
 //5.执⾏流计算任务
 env.execute("Window Stream WordCount")
远程部署
//1.创建流计算执⾏环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
 //2.创建DataStream - 细化
 val text = env.socketTextStream("CentOS", 9999)
 //3.执⾏DataStream的转换算⼦
 val counts = text.flatMap(line=>line.split("\\s+"))
 .map(word=>(word,1))
 .keyBy(0)
 .sum(1)
 //4.将计算的结果在控制打印
 counts.print()
 //5.执⾏流计算任务
 env.execute("Window Stream WordCount")

StreamExecutionEnvironment.getExecutionEnvironment⾃动识别运⾏环境,如果运⾏环境是idea,
系统会⾃动切换成本地模式,默认系统的并⾏度使⽤系统最⼤线程数,等价于Spark中设置的
local[*] ,如果是⽣产环境,需要⽤户在提交任务的时候指定并⾏度 --parallelism

  • web UI部署
  • 通过脚本部署
[root@CentOS ~]# cd /usr/flink-1.10.0/
[root@CentOS flink-1.10.0]# ./bin/flink run
 --class com.baizhi.quickstart.FlinkWordCountQiuckStart
 --detached # 后台提交
 --parallelism 4 #指定程序默认并⾏度
 --jobmanager CentOS:8081 # 提交⽬标主机
 /root/flink-datastream-1.0-SNAPSHOT.jar
Job has been submitted with JobID f2019219e33261de88a1678fdc78c696
跨平台发布
object FlinkWordCountQiuckStartCorssPlatform {
 def main(args: Array[String]): Unit = {
 //1.创建流计算执⾏环境
 var jars="/Users/admin/IdeaProjects/20200203/flink-datastream/target/flinkdatastream-1.0-SNAPSHOT.jar"
 val env = StreamExecutionEnvironment.createRemoteEnvironment("CentOS",8081,jars)
 //设置默认并⾏度
 env.setParallelism(4)
 //2.创建DataStream - 细化
 val text = env.socketTextStream("CentOS", 9999)
 //3.执⾏DataStream的转换算⼦
 val counts = text.flatMap(line=>line.split("\\s+"))
 .map(word=>(word,1))
 .keyBy(0)
 .sum(1)
 //4.将计算的结果在控制打印
 counts.print()
 //5.执⾏流计算任务
 env.execute("Window Stream WordCount")
 }
}

运行之前需要maven package打包,然后直接运行main函数即可。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值