![](https://img-blog.csdnimg.cn/773deb42f4a44420a26ed15db0331992.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Apache Flink
文章平均质量分 90
Flink是新一代的流式计算框架,性能相对于其他流式计算框架都有很大提升,支持广义和狭义的流批处理,具备吞吐量大且数据延迟低特点。在未来的大数据开发中Flink将占有非常大的比重。此专栏包含部分Flink技术内容,完整内容请订阅主页“大数据计算体系技术栈”专栏。
IT贫道
10余年大数据架构行业工作经验,多年线下和线上大数据教学经验,专注于大数据技术分享。
展开
-
Apache Flink连载(四十一):Flink基于Kubernetes部署 - Kubernetes部署模式之Session Cluster部署-HA Session Cluster部署及测试
以上删除该Active JobManager对应的pod后,Kubernetes机制本身会尝试重启新的Pod,当然由于我们配置了Flink HA ,所以Kubernetes会在新启动的JobManager Pod与原来运行的Standby JobManager Pod中进行自动选主,有一定概率会选择原来一直运行的JobManager Pod当做Active JobManager。由于HA模式使用到了HDFS集群,所以这里应该首先启动HDFS集群然后再部署对应的yaml文件。原创 2024-03-06 11:45:00 · 159 阅读 · 0 评论 -
Apache Flink连载(四十):Flink基于Kubernetes部署 - Kubernetes部署模式之Session Cluster部署-非HA Session Cluster部署及测试
向K8S部署的Flink集群中提交应用程序如果打印结果到控制台不支持在WebUI中的TaskManager中查看对应的Console日志,主要原因是K8S 基于Docker运行Flink TaskExecutor和JobMaster 进程时不会将STDOUT日志重定向到文件中。基于K8s的Flink Standalone 集群我们可以通过Flink WebUI来提交Flink任务,也可以通过Flink客户端命令提交任务。Session集群WebUI。浏览器中输入的ip可以是K8s集群中任意节点的IP。原创 2024-03-06 11:45:00 · 153 阅读 · 0 评论 -
Apache Flink连载(三十九):Kuberneters 部署案例
这里为了强化对Kubernetes集群的理解,我们基于Kubernetes集群进行部署nginx服务,nginx服务我们设置2个副本,同时将nginx服务端口80暴露到宿主机上。访问任意kubernetes集群的节点30080端口查看nginx服务是正常,例如:浏览器输入node1:30080。🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~原创 2024-03-05 11:45:00 · 184 阅读 · 0 评论 -
Apache Flink连载(三十八):Kubernetes集群UI及主机资源监控
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~原创 2024-03-04 11:45:00 · 119 阅读 · 0 评论 -
Apache Flink连载(三十七):Flink基于Kubernetes部署(7)-Kubernetes 集群搭建-3
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~原创 2024-03-03 11:45:00 · 270 阅读 · 0 评论 -
Apache Flink连载(三十四):Flink基于Kubernetes部署(4)-Kubernetes 集群搭建环境准备
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~这里使用kubeadm部署工具来进行部署Kubernetes。Kubeadm是为创建Kubernetes集群提供最佳实践并能够“快速路径”构建kubernetes集群的工具。它能够帮助我们执行必要的操作,以获得最小可行的、安全的集群,并以用户友好的方式运行。原创 2024-02-24 11:45:00 · 151 阅读 · 0 评论 -
Apache Flink连载(三十三):Flink基于Kubernetes部署(3)-Kubernetes 核心概念
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~Kubernetes中有非常多的核心概念,下面主要介绍Kubernetes集群中常见的一些概念。原创 2024-02-23 11:45:00 · 124 阅读 · 0 评论 -
Apache Flink连载(三十二):Flink基于Kubernetes部署(2)-Kubernetes集群架构及组件
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~一个Kubernetes集群至少有一个主控制平面节点(Control Plane)和一台或者多台工作节点(Node)组成,控制面板和工作节点实例可以是物理设备或云中的实例。原创 2024-02-22 11:45:00 · 139 阅读 · 0 评论 -
Apache Flink连载(三十一):Flink基于Kubernetes部署(1)-Kubernetes介绍
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~Kubernetes是Google公司在2014年6月开源的一个容器集群管理系统,使用Go语言开发,也叫K8S(k8s 这个缩写是因为k和s之间有八个字符的关系)。Kubernetes这个名字源于希腊语,意为“舵手”或“飞行员”。Kubernetes的目标是让部署容器化的应用简单并且高效,提供应用部署,维护,规划,更新。Kubernetes一个核心的特点就是能够自主的管理容器来保证云平台中的容器按照用户的期望状态运行,让用户能够方便的部署自己的应用。原创 2024-02-21 11:45:00 · 112 阅读 · 0 评论 -
Apache Flink连载(三十):Flink 内存模型
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~在大数据中所有开源计算框架都会使用到JVM ,例如:MapReduce、Storm、Spark等,这些计算框架在处理数据过程中涉及到将大量数据存储在内存中,此时如果内存管理过渡依赖JVM,就会出现java对象存储密度低导致内存使用率低以及垃圾回收导致系统不稳定问题,这极大影响了系统的性能和稳定性。原创 2024-02-20 11:45:00 · 119 阅读 · 0 评论 -
Apache Flink连载(二十九):Flink细粒度资源管理(2)-用法、测试及局限性
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~原创 2024-02-19 11:45:00 · 128 阅读 · 0 评论 -
Apache Flink连载(二十八):Flink细粒度资源管理(1)-适用场景和原理
Apache Flink 在1.14版本之前使用的是粗粒度资源管理方式,每个算子Slot Request 所需要的资源都是未知的,在Flink源码内部使用UNKNOWN的特殊值来表示,这个值可以和任意资源规格的物理Slot进行匹配,站在TaskManager的角度来说,它拥有的Slot个数与Slot资源是根据Flink的配置来决定。原创 2024-02-18 20:51:03 · 521 阅读 · 0 评论 -
Apache Flink连载(二十六):TaskSlot任务槽-(1)-TaskSlot&SlotSharingGroup
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~提交到集群中的Flink程序最终会转换成一个个的Subtask,Subtask是Flink任务调度的基本单元,这些task最终被发送到不同的TaskManager节点上分布式执行,假设现在我们有一个TaskManager,一个Flink 任务有多个Subtask,这些Subtask能否正常在该TaskManager上启动?到底一个TaskManager上能同时执行多少个Subtask?原创 2024-01-27 11:45:00 · 147 阅读 · 0 评论 -
Apache Flink连载(二十五):Flink执行图
Flink代码提交到集群执行时最终会被转换成task分布式的在各个节点上运行,在前面我们学习到DataFlow数据流图,DataFlow是一个Flink应用程序执行的高级视图,展示了Flink应用程序执行的总体流程,在Flink底层由DataFlow最终转换成执行的task的过程还涉及一些对象转换。下图以一个普通的Flink处理数据流程展示了一个Flink任务提交到集群后内部对象转换关系和流程,其中每个虚线框代表一个task,p代表并行度,这里假设为2。🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~原创 2024-01-26 11:45:00 · 126 阅读 · 0 评论 -
Apache Flink连载(二十四):Apache Flink术语
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~Flink计算框架可以处理批数据也可以处理流式数据,Flink将批处理看成是流处理的一个特例,认为数据原本产生就是实时的数据流,这种数据叫做无界流(unbounded stream),无界流是持续不断的产生没有边界,批数据只是无界流中的一部分叫做有界流(bounded stream),针对无界流数据处理叫做实时处理,这种程序一般是7*24不间断运行的;针对有界流数据处理叫做批处理,这种程序处理完当前批数据就停止。原创 2024-01-25 11:45:00 · 149 阅读 · 0 评论 -
Apache Flink连载(二十三):Flink HA - Flink基于Yarn HA
🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频。原创 2024-01-01 11:45:00 · 392 阅读 · 0 评论 -
Apache Flink连载(二十二):Flink HA - Flink基于Standalone HA
🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频Standalone模式下,JobManager的高可用性的基本思想是,任何时候都有一个Alive JobManager和多个Standby JobManager。原创 2023-12-31 11:45:00 · 921 阅读 · 0 评论 -
Apache Flink连载(二十一):Flink On Yarn运行原理-Yarn Application模式
🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频。原创 2023-12-30 11:45:00 · 935 阅读 · 0 评论 -
Apache Flink连载(二十):Flink On Yarn运行 - Yarn Per-Job模式(弃用)
🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频。Per-Job模式就是直接由客户端向Yarn中提交Flink作业,每个作业形成一个单独的Flink集群。原创 2023-12-29 11:45:00 · 982 阅读 · 0 评论 -
Apache Flink连载(十九):Flink On Yarn运行-Yarn Session模式
🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频。原创 2023-12-28 11:45:00 · 1304 阅读 · 0 评论 -
Apache Flink连载(十八):Flink On Yarn运行原理及环境准备
🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频。原创 2023-12-27 23:54:11 · 1672 阅读 · 0 评论 -
Apache Flink连载(十七):Flink On Standalone任务提交-Standalone Application模式
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-12-21 05:00:00 · 860 阅读 · 0 评论 -
Apache Flink连载(十六):Flink On Standalone任务提交-Standalone Session模式
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Flink On Standalone 即Flink任务运行在Standalone集群中,Standalone集群部署时采用Session模式来构建集群,即:首先构建一个Flink集群,Flink集群资源就固定了,所有提交到该集群的Flink作业都运行在这一个集群中,如果集群中提交的任务多资源不够时,需要手动增加节点,所以Flink 基于Standalone运行任务一般用在开发测试或者企业实时业务较少的场景下。。原创 2023-12-20 06:15:00 · 848 阅读 · 0 评论 -
Apache Flink连载(十五):Flink任务提交模式
Flink分布式计算框架可以基于多种模式部署,每种部署模式下提交任务都有相应的资源管理方式,例如:Flink可以基于Standalone部署模式、基于Yarn部署模式、基于Kubernetes部署模式运行任务,以上不同的集群部署模式下提交Flink任务会涉及申请资源、各角色交互过程,不同模式申请资源涉及到的角色对象大体相同,下面我们以Flink运行时架构流程为例来总体了解下Flink任务提交后涉及到对象交互流程,以便后续学习不同任务提交模式下任务提交流程。原创 2023-12-19 07:00:00 · 932 阅读 · 0 评论 -
Apache Flink连载(十四):Flink 本地模式开启WebUI
在工作中我们一般使用IntelliJ IDEA开发工具进行代码开发,为了能方便快速的调试Flink和了解Flink程序的运行情况,我们希望本地开发工具中运行Flink时能查看到WebUI,这就可以在编写Flink程序时开启本地WebUI。在Flink1.15版本之前根据使用Scala版本在Java Flink项目或Scala Flink项目中添加对应Scala版本的依赖。在Flink1.15版本之后,无论是Java Flink项目还是Scala Flink项目,添加如下依赖,不需额外依赖Scala版本。原创 2023-12-18 11:14:21 · 1072 阅读 · 0 评论 -
Apache Flink连载(十三):Flink History Server
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。基于Standalone或者Yarn模式提交Flink任务后,当任务执行失败、取消或者完成后,可以在WebUI中查看对应任务的统计信息,这些统计信息在生产环境中对我们来说非常重要,可以知道一个任务异常挂掉前发生了什么,便于定位问题。原创 2023-12-14 08:00:00 · 974 阅读 · 0 评论 -
Apache Flink连载(十二):Flink集群部署-Flink On Yarn
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Flink可以基于Yarn来运行任务,Yarn作为资源提供方,可以根据Flink任务资源需求动态的启动TaskManager来提供资源。Flink基于Yarn提交任务通常叫做Flink On Yarn,Yarn资源调度框架运行需要有Hadoop集群。原创 2023-12-13 07:30:00 · 887 阅读 · 0 评论 -
Apache Flink连载(十一):Flink集群部署-Standalone集群部署
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Flink的安装和部署主要分为本地(单机)模式和集群模式,其中本地模式只需直接解压就可以使用,不用修改任何参数,一般在做一些简单测试的时候使用。本地模式在这里不再赘述。集群部署模式主要包含Standalone、Hadoop Yarn 、Kubernetes等,Flink可以借助以上资源管理器来实现分布式计算,目前企业使用最多的是Flink 基于Hadoop Yarn资源管理器模式,本小节我们重点讲解Flink 基于Standalone集群。原创 2023-12-12 22:52:41 · 1140 阅读 · 0 评论 -
Apache Flink连载(十):Flink集群基础环境搭建-JDK及MySQL搭建
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-12-09 04:00:00 · 831 阅读 · 0 评论 -
Apache Flink连载(九):集群基础环境搭建-Centos7节点配置
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。这里准备5台Linux节点,节点名称和ip信息如下,我们可以从头搭建各个Linux节点也可以基于已有快照创建各个Linux节点。node1node2node3node4node5这里默认已经创建好以上各个节点,并且每个节点分配资源为4核2G,下面进行节点的其他配置。原创 2023-12-08 01:30:00 · 953 阅读 · 0 评论 -
Apache Flink连载(八):Apache Flink架构
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-12-07 07:15:00 · 924 阅读 · 0 评论 -
Apache Flink连载(七):Apache Flink快速入门 - DataStream BATCH模式
关于Flink集群提交任务及Flink flink-conf.yaml配置文件在下个章节集群搭建会进行介绍。以上代码运行完成之后结果如下,可以看到结果与批处理结果类似,只是多了对应的处理线程号。🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-12-06 12:36:20 · 653 阅读 · 0 评论 -
Apache Flink连载(三):Flink核心特性及应用场景
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-30 05:45:00 · 955 阅读 · 0 评论 -
Apache Flink连载(六):Apache Flink快速入门 - Flink案例实现
目录1. Flink 批数据处理案例2. Flink流式数据处理案例3. Flink批和流案例总结数据源分为有界和无界之分,有界数据源可以编写批处理程序,无界数据源可以编写流式程序。DataSet API用于批处理,DataStream API用于流式处理。批处理使用ExecutionEnvironment和DataSet,流式处理使用StreamingExecutionEnvironment和DataStream。DataSet和DataStream是Flink中表示数据的特殊类,DataSet处理的数据原创 2023-12-04 08:00:00 · 916 阅读 · 0 评论 -
Apache Flink连载(五):Apache Flink快速入门 - 环境准备及入门案例
学习一门新的编程语言时,往往会从“hello world”程序开始,而接触一套新的大数据计算框架时,则一般会从WordCount案例入手,下面以大数据中最经典入门案例WordCount为例,来编写Flink代码,Flink底层源码是基于Java代码进行开发,在Flink编程中我们除了可以使用Java语言来进行编写Flink程序外,还可以使用Scala、Python语言来进行编写Flink程序,在后续章节中我们将会主要使用Java和Scala来编写Flink程序。下面来准备下Flink开发环境。原创 2023-12-02 07:45:00 · 866 阅读 · 0 评论 -
Apache Flink连载(四):Flink & 其他实时计算框架对比
根据前文描述我们知道Flink主要处理的是流数据,针对的是实时计算领域,在Flink之前,大数据实时领域中还有Storm、SparkStreaming。Storm是比较早的流式计算框架,后来又出现了SparkStreaming,为了支持SQL Spark后期又推出StructuredStreamig,现在又出现了Flink这种优秀的实时计算框架,那么这几种计算框架到底有什么区别呢?🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-12-01 08:30:00 · 927 阅读 · 0 评论 -
Apache Flink连载(二):数据架构演变
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。近年来随着越来越多的大数据技术被开源,例如:HDFS、Spark等,伴随这些技术的发展与普及,促使企业数据架构的演进——从传统的关系型数据存储架构逐步演化为分布式处理和存储的架构。我们通过数据架构的演变角度来了解下为什么今天Flink实时计算引擎会爆火起来。原创 2023-11-29 20:40:31 · 1239 阅读 · 0 评论 -
Apache Flink连载(一):Apache Flink是什么?
Apache Flink 是一个框架和分布式处理引擎,用于在。原创 2023-11-28 11:40:01 · 1037 阅读 · 0 评论