Flink
文章平均质量分 69
胖胖学编程
这个作者很懒,什么都没留下…
展开
-
[flink]部署模式
它们的区别主要在于:集群的生命周期(创建和停止集群的时间)以及资源的分配方式(一个独享还是多人共享);而这也就代表着,我们需要为每一个提交的应用单独启动一个JobManager,也就是创建一个集群。我们需要先启动一个集群,保持一个会话,在这个会话中通过客户端提交作业。集群启动时所有资源就都已经确定,所以所有提交的作业会竞争集群中的资源。在一些应用场景中,对于集群资源分配和占用的方式,可能会有特定的需求。会话模式和单作业模式下,应用的代码都是在客户端上执行的。作业完成后,集群就会关闭,所有资源也会释放。原创 2024-08-05 16:22:37 · 673 阅读 · 0 评论 -
[flink]系统架构
1、任务并行第一条数据在source读取完后,在map()在转换,这时,source可以处理下一条数据。即不同的操作(任务)可以同时处理。但是这样,多条数据同时过来,需要一条一条运行,会需要等待。2、数据并行将一个算子分成多个子任务,这样算子可以进行同时计算。无论在代码中设置,还是在提交应用时增加-p参数,都不是必须的,因此,在没有指定并行度的时候,就会采用配置文件中的集群默认并行度。在开发环境中(idea),没有配置文件,默认并行度就是当前机器CPU的核数。原创 2023-03-15 17:21:16 · 353 阅读 · 0 评论 -
[flink]一Flink部署|配置文件|提交作业|部署模式|独立模式部署|yarn模式部署
同样由客户端运行应用程序(需要客户端先跑一遍代码,把应用拆分成作业,比如并行度为2,会拆成两个作业,需要启动两个集群),然后启动集群,作业提交给JobManager,进而分发给TaskManager执行。我们需要先启动一个集群,保持一个会话,在这个会话中通过客户端提交作业(需要客户端先跑一遍代码,把应用拆分成作业,比如并行度为2,会拆成两个作业,然后将作业提交给jobManager)。一个应用启动一个集群。会话模式、单作业模式,都需要客户端先跑一遍代码,把应用拆分成作业,比如并行度为2,会拆成两个作业。原创 2023-03-07 15:26:17 · 2041 阅读 · 0 评论 -
[flink]报错
Caused by: java.lang.ClassNotFoundException:org.apache.flink.streaming.api.scala.StreamExecutionEnvironment$Caused by: java.lang.ClassNotFoundException: org.apache.commons.compress.compressors.zstandard.ZstdCompressorInputStream原创 2023-03-06 17:25:06 · 361 阅读 · 0 评论 -
[数仓]OLTP和OLAP
OLTP:以事务作为数据处理的单位,一般是和MySQL进行交互,可以对数据进行即时更新,系统内的数据总是保持在最新状态。缺点:数据孤岛,比如查询飞机订票,股票交易,各自相互独立。将不同系统的数据都提取到数仓中,对海量数据进行处理。缺点:时效性低(t+1)原创 2023-02-21 15:41:21 · 201 阅读 · 0 评论 -
[Flink]部署模式(看pdf上的放上面)
运行一个wordcount。原创 2023-02-23 16:54:42 · 367 阅读 · 0 评论 -
[Flink]介绍 | 核心组成 | flink的角色 | 运行架构【旧】
3)优点:在第一个任务的位置挂掉了,程序重新启动时,不在需要把第一个任务和之前任务进行重新计算,可以直接找到第一个子任务的状态,用它快读恢复输出结果。Flink常见的sink大概有如下几类:写入文件、写入socket、自定义的sink:图中的addSink是自定义的sink,可以将结果写入kafka、mysql、es、hdfs等。形成操作器链的子任务有一定的条件:相同的并行度,在本地进行数据传输,不涉及shuffle过程,满足这样的条件,就可以将两个子任务连到一起,形成一个操作器链。原创 2023-02-21 16:02:13 · 673 阅读 · 0 评论