批量计算&弊端
1.1批量计算
对有界数据集的计算。有边界:数据有开始,也有结束
是对历史数据的计算
数据是一批一批地计算,来一批,处理一批
时效性较差、延迟较高
比较节省资源
1.2弊端
在一些**时效性**非常高的场景,批量计算力不从心。
* 实时监控网站的异常情况
* 实时监测道路的拥堵情况
* 双十一、618实时监控成交额情况
* 实时监测全国疫情爆发情况
流式计算
生活中的流式场景非常多,比如水流、车流、行人、电流等都是生活中的流场景。
数据是无边界的。**无边界**:数据有开始,但是数据是没有结束的
数据是源源不断产生的,是实时产生的
数据是来一条处理一条,实时产生,实时处理
* 页面埋点日志
* 城市道路交通大屏
* 打车
* 外卖
* 实时大屏/看板展示
流式计算,是一种计算思想。不涉及某一门计算框架。
只要是实现了流式计算思想的框架,那么它就是流式计算框架。
Flink只是实现了流式计算思想的一门框架而已。
除了Flink,还有其他的计算框架,也是实现了流式计算思想的。
Standalone模式下的任务提交
编辑/etc/profile文件,添加如下信息:
#FLINK_HOME目录
export FLINK_HOME=/export/server/flink
export PATH=$PATH:$FLINK_HOME/bin
添加完之后,source一下即可。
source /etc/profile
提交任务
#1.基础路径
cd ~
#2.提交任务
flink --help
flink -h/--h/-help/--help这4个提示命令,总有一个会生效
#3.提交命令
flink run /export/server/flink/examples/batch/WordCount.jar
#4.查看结果
结果默认会打印在标准输出。
#5.action说明【扩展】
Flink提供了很多的action操作:
run:运行一个任务
run-application:以Application的模式来运行任务
info:打印任务执行计划
list:列出当前正在运行的任务
stop:停止一个正在运行中的任务
cancel:取消一个正在运行中的任务
Flink On Yarn模式
#1.启动HDFS
start-dfs.sh
#2.启动Yarn
start-yarn.sh
#3.添加Flink的兼容包
flink-shaded-hadoop-3-uber-3.1.1.7.2.9.0-173-9.0.jar
commons-cli-1.5.0.jar
上述这两个jar包都要放置在$FLINK_HOME/lib目录下。
Flink On Yarn可以有三种运行方式,也就是三种部署模式:
Session模式(会话模式)
Per-job模式(job分离模式)
Application模式(应用模式)
Flink可以基于上述3种模式中的任何一种来运行。