flink-社区-1.为什么学习flink

课程目的

实时计算
流计算
风控

扩大需求
扩大it人员对flink的掌握
让更多大数据人员接触flink

定义

框架:意味着只需要编写业务逻辑
分布式计算
有状态计算
数据流

application

1. 基础语义

{1} stream

离线处理一般都会将数据抽象为一个集合,但实时计算,将数据抽象为流,不断地产生、传输、处理。
有界:有始有终,有大小
无界:由此产生了很多额外的概念,比如trigger

{2} state

支持有状态计算
stateless
采集一条、传输一条、处理一条。数据不需要留存在系统中,而是保存在上下游。比如一个web项目,数据都存在数据库。
stateful
比如聚合操作,比如count、机器学习、pv、uv,处理数据时需要cap之前的数据。需要把之前的数据也要缓存在计算系统中。
还有excently once,需要把状态写入到状态持久化存储。
在这里插入图片描述

{3} time

实时处理的基础,用时间来控制实时的窗口。
度量实时处理的进度,因为实时处理是没有结束时间的。比如通过eventTime,可以比较eventTime和当前时间,就可以确定实时处理的延迟、滞后性。

事件发生时间:比如日志产生的时间,也就是业务时间
数据进入flink,也就是source的时间。
算子开始处理时间:也就是flink开始处理数据的时间
在这里插入图片描述

2. 多层次api

越往下越灵活、越底层、抽象能力越小
在这里插入图片描述

Architecture

在这里插入图片描述
把状态存到本地,不需要额外的hbase或redis,减少网络IO。但为了failover,会定期把本地状态写到远程。
在这里插入图片描述

Operation

高可用

一致性checkpoint

监控

webUI:DAG图,metric

Scenario

1. ETL

实时数仓的etl
实时创建搜索引擎的index索引,比如卖家上线一个商品,前天实时能搜索到。
在这里插入图片描述

2. 实时报表

在这里插入图片描述

3. data Driven

本质上所有流处理都是数据驱动的,这里特指风控,根据业务规则监控数据。其实也是逐条处理

在这里插入图片描述

如何学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值