自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Flink重点知识整理07

65.有了EventTime时间戳,我们还必须生成Watermark,Watermark是Flink插入到数据流中的一种特殊的数据结构,它包含一个时间戳,并假设后续不会有小于该时间戳的数据。63.曾量计算:窗口保存一份中间数据,每流入一个新元素,新元素与中间数据两两合一,生成新的中间数据,再保存到窗口中。62.窗口函数分为两类:增量计算、全量计算。

2023-05-21 16:39:50 55 1

原创 Flink重点知识整理06

53.Flink一般执行在一个集群上,执行环境是Flink程序执行的上下文,它提供了一系列作业与集群交互的方法,比如作业如何与外部世界交互·流处理的执行环境:org.apache.flink.streaming.api.environment.StreamExecutionEnvironment·批处理的执行环境:org.apache.flink.api.java.ExecutionEnvironment。56.执行——调用执行环境execute()方法来明确通知Flink去执行。

2023-05-21 16:34:31 80 1

原创 Flink重点知识整理05

45.有了EventTime时间戳,我们还必须生成Watermark,Watermark是Flink插入到数据流中的一种特殊的数据结构,它包含一个时间戳,并假设后续不会有小于该时间戳的数据。47.算子链:将相近的算子子任务链接在一起,链接后以任务的形式被TaskManager调度执行,可以降低算子子任务之间的传输开销。50.在操作系统层面,进程是进行资源分配和调度的一个独立单位,线程是CPU调度的基本单位。46.Flink的组件栈分为4层:部署层、运行时层、API层和上层工具。

2023-05-21 16:29:38 76 1

原创 Flink重点知识整理04

36.Lambda表达式是有类型的本质是一种接口,它要实现一个函数式接口中的虚方法,函数式接口是一种接口,并且它只有一个虚方法。32.数据与数据流数据源源不断地产生,形成一个无界的数据流单条数据被称为事件,事件按照时序排列会形成一个数据流。40.并行度:1个算子任务被分成的算子子任务的个数,并行度设置:根据输入数据量的大小、计算资源的多少。39.算子被切分为算子子任务,又被称为算子实例,(算子实例是物理执行的基本单元)38.算子:在执行层面,算子对数据进行操作,一般一到多个函数对应一个算子。

2023-05-17 22:29:02 40

原创 Flink重点知识整理03

23.流数据处理应用的行业·电商和市场营销——数据报表、广告投放、业务流程需要·物联网——传感器实时数据采集和显示、实时报警、交通运输业·电信业——基站流量调配·银行和金融业——实时结算和通知推送,实时检测异常行为。25.分析处理——将数据从业务数据库复制(通过ETL技术,有组织的存到)到数据仓库,在进行分析和查询——三个数据库可以是不同类型的数据库,统一通过ETL进行分析处理——不足:实时处理性差。28.java继承——继承类extends实现接口——implements。

2023-05-17 22:21:27 398 1

原创 Flink重点知识整理02

(有些数据被丢弃,最不安全)·At-Least-Once:每个事件至少被处理一次,有些事件可能被处理多次。12.会话窗口(SessionWindow):窗口长度不固定,根据会话间隔(SessionGap)确定窗口,两个事件之间的间隔大于会话间隔(SessionGap),则两个事件被划分到不同的窗口中。13.时间语义:EventTime事件实际发生的时间ProcessingTime事件被流处理引擎处理的时间。14.无状态:流处理中,不需要额外信息,给定一个输入数据,直接得到输出——将英文单词转化为小写。

2023-05-17 22:19:47 394 1

原创 Flink重点知识整理01

—打开所有——查看ip地址的命令——ifconfig启动zookeeper——[core]#zkServer.shstart启动kafka—[kafka]#bin/kafka-server-start.sh-daemonconfig/server.properties。生产者:bin/kafka-console-producer.sh--bootstrap-serverlocalhost:9092--topictesttp。8.吞吐:一个系统最多能处理多少个事件,一般以单位时间处理的事件数量为标准。

2023-05-17 22:14:46 43 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除