
flink
javastart
专注于大数据 AI
展开
-
[Flink项目优化] 资源配置调优
一般我们的 Checkpoint 时间间隔可以设置为分钟级别,例如 1 分钟、3 分钟,对于状态很大的任务每次 Checkpoint 访问 HDFS 比较耗时,可以设置为 5~10 分钟一次Checkpoint,并且调大两次 Checkpoint 之间的暂停间隔,例如设置两次 Checkpoint 之间至少暂停 4 或 8 分钟。Flink 性能调优的第一步,就是为任务分配合适的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。转载 2023-05-29 15:01:25 · 5 阅读 · 0 评论 -
Flink实时计算-深入理解 Checkpoint和Savepoint
本文没有过多的讲述源码,考虑大家的都能够读懂,其语言竟可能通俗一一点。如果有需要改进的地方,希望大家能够指出。后续我会不断的和大家一起大数据相关的技术,和大家一起交流学习。转载 2023-05-25 16:01:50 · 6 阅读 · 0 评论 -
官宣|Apache Flink 1.17 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.17.0。Apache Flink 是领先的流处理标准,流批统一的数据处理概念在越来越多的公司中得到认可。得益于我们出色的社区和优秀的贡献者,Apache Flink 在 Apache 社区中一直保持着快速增长,并且是最活跃的社区之一。Flink 1.17 有 172 位贡献者热情参与,完成了 7 个 FLIP 和 600 多个 issue,为社区带来了许多令人兴奋的新功能和改进。转载 2023-05-24 22:36:30 · 7 阅读 · 0 评论 -
Flink详解系列之八--Checkpoint和Savepoint
当一个算子接收到第一个输入流的快照barrier n时,它不能继续处理该流的其他数据,而是需要等待接收到最后一个流的barrier n,才可以生成算子的状态快照和发送挂起的输出记录,然后发送快照barrier n。savepoint是使用检查点机制创建的,作业执行状态的全局镜像,可用于flink的停止与恢复,升级等。由于有些算子是有状态的,有些算子是无状态的,实际上只要给有状态的算子添加算子ID就可以,但很多人并不太清楚哪些算子是有状态的,哪些是无状态的,所以,实际操作中,尽量给每个算子手动配置算子ID。转载 2023-05-24 18:44:33 · 10 阅读 · 0 评论 -
Doris + Flink + DolphinScheduler + Dinky 构建开源数据平台
在推导的过程中,通常会运用到一些比较关键的信息,下图中所展示的是 SQL 任务提交过程中构建的 StreamGraph,血缘实现的原理是基于 Pact、Contents、Predecessors 等参数实现 Source 和 Sink 字段关系的推导,但是有一些自定义的 UDF 以及连接器是不包含类似元数据的信息,比如说 Hudi 的连接器是无法进行 Hudi 的血缘。通过 Dinky 来提供一个完整的任务开发运维的平台能力,满足常见的企业数据平台需求。转载 2023-05-09 15:50:06 · 386 阅读 · 0 评论 -
Apache Flink框架浅析
集团关于Blink的相关使用文档已经十分齐全,这里不准备再过多赘述。这篇文章准备对Blink所基于的Apache社区开源产品--Flink的架构做一些浅显分析。转载 2023-04-25 16:33:52 · 41 阅读 · 0 评论 -
Dlink On Yarn 三种 Flink 执行方式的实践
进入集群中心进行远程集群的注册。Executor 是 Dlink 定制的 FlinkSQL 执行器,来模拟真实的 Flink 执行环境,负责 FlinkSQL 的 Catalog 管理、UDF管理、片段管理、配置管理、语句集管理、语法校验、逻辑验证、计划优化、生成 JobGraph、本地执行、远程提交、SELECT 及 SHOW 预览等核心功能。JobManager 并非 Flink 的 JM,而是作为 Dlink 的作业管理入口,负责 Flink 的各种作业执行方式及其他功能的调度。转载 2023-04-07 18:06:11 · 81 阅读 · 0 评论 -
flink sql 知其所以然:flink sql 开发企业级利器之 Dlink
注意这里只是 Dlink 相关的包和文件,flink 任务的执行必然还会依赖到 flink 相关的包,这就需要你在 dlink-release-0.4.0 目录下自己创建一个 plugins 文件夹。第三步:注意,重点。引用 Dlink 官网的介绍,Dlink 将紧跟 Flink 官方社区发展,为推广及发展 Flink 的应用而奋斗,打造 FlinkSQL 的最佳搭档的形象。Dlink 是前后端分离的,刚刚我们配置了 MySQL 相关的环境,则可以直接启动后端了,后端占用的端口是 8888,启动命令如下。转载 2023-04-07 17:46:21 · 131 阅读 · 0 评论 -
Apache Zeppelin:可能是开源届最好的Flink开发平台
Flink问:我有丰富的connector,但是用户每次都要把connector打包到uber jar里,或者copy到flink的lib下,但是这样会把各种connector jar混在一起,容易发生冲突,很难管理,有谁能提供一个干净点的方案?如果你是Flink的学习者或者爱好者,除了学习Flink本身之外,你是否在寻找一款Flink的开发部署工具。Flink问:Flink Job提交目前只能一个个提交,一个job跑完跑另外一个,有些用户想并行执行多个Flink Job,谁能帮我搞定这个需求?转载 2023-01-20 22:25:00 · 611 阅读 · 0 评论 -
flink1.16新特性列举
-4:对于shuffle中一个上游的数据有多个下游共用的情况,以前是上游vertex生成多个数据集,然后供下游使用,这导致了数据被序列化和持久化了多次。--10:sort-shuffle的index文件以前存储的位置信息是当前数据分区的buffer数(the number of buffers in the current data region),这样不便于快速的定位目标数据的边界,现在改成了记录当前数据分区的bytes数,这样也便于做如下优化:为了连续性IO读取,读取大于一个buffer的数据。原创 2022-09-24 14:08:59 · 458 阅读 · 0 评论 -
汽车之家基于 Flink 的实时计算平台 3.0 建设实践
本文整理自汽车之家实时计算平台负责人邸星星在 Flink Forward Asia 2021 平台建设专场的演讲。转载 2022-08-27 17:24:16 · 272 阅读 · 0 评论 -
Flink 面试题
Flink SQL篇,SQL实操、Flink Hive、CEP、CDC、GateWayFlink源码篇,作业提交流程、作业调度流程、作业内部转换流程图Flink核心篇,四大基石、容错机制、广播、反压、序列化、内存管理、资源管理Flink基础篇,基本概念、设计理念、架构模型、编程模型、常用算子1、Flink SQL有没有使用过?2、Flink被称作流批一体,从哪个版本开始,真正实现流批一体的?3、Flink SQL 使用哪种解析器?4、Calcite主要功能包含哪些?5、Fl.原创 2022-04-17 19:08:57 · 941 阅读 · 0 评论 -
Flink1.13批流合一的介绍
概况DataStream API支持不同的运行时执行模式,我们可以根据实际的需求和任务的特征来选择这些模式。STREAMING执行模式是DataStream API的“经典”执行行为,应该用于需要持续增量处理并预期无限期在线的无限作业。此外,还有一种批处理风格的执行模式,我们称之为 BATCH执行模式。 它以一种像批处理框架(如MapReduce)的方式执行作业。 这应用于已知有限的数据源输入并且不会连续运行的有界作业。Flink对流和批处理的统一方法意味着在有界输入上执行的DataSt.原创 2022-04-17 11:36:18 · 460 阅读 · 0 评论 -
Flink批处理和流处理两种方式实现WordCount代码示例
本文使用 Flink 的两种方式实现 WordCount基于流计算基于批计算先说一下我的环境:Flink 1.9开发工具:IdeaMaven版本:3.3.9Linux:CentOS 7演示语言:Scala 2.111. Idea 新建 Maven 项目并配置以下依赖<dependencies> <dependency> <groupId>org.apache.flink</groupId> ...原创 2022-04-17 11:08:16 · 1400 阅读 · 0 评论 -
2021年Apache Flink总结及下一步规划:不止于流处理
本文整理自 Apache Flink 中文社区发起人、阿里巴巴开源大数据平台负责人王峰(莫问)在 Flink Forward Asia 2021 的分享。本篇内容主要分为四个部分: 1. 2021: Apache Flink 社区持续繁荣 2. Apache Flink 核心技术演进 3. 流批一体演进与落地 4. 机器学习场景支持2021: Apache Flink 社区持续繁荣1.1 Flink 大版本迭代2021 年,Flink 社区共发布两个大版本:Flink 1....转载 2022-03-20 16:37:18 · 315 阅读 · 0 评论 -
Flink实战(111):flink-sql使用(十九)Flink 与 hive 结合使用(八)Hive Streaming 实战解析
《2021年最新版大数据面试题全面开启更新》Flink 1.11 正式发布已经三周了,其中最吸引我的特性就是 Hive Streaming。正巧 Zeppelin-0.9-preview2 也在前不久发布了,所以就写了一篇 Zeppelin 上的 Flink Hive Streaming 的实战解析。本文主要从以下几部分跟大家分享:Hive Streaming 的意义 Checkpoint & Dependency 写入 Kafka Hive Streaming Sink Hi...转载 2022-03-13 11:35:22 · 1143 阅读 · 0 评论 -
flink 流批一体
目录当我们谈论批流一体,我们在谈论什么? 一、流计算与批计算 一)流计算与批计算 二)流计算与批计算的比较 三)为什么要搞流批一体 二、流批一体的场景 一)数据集成的流批一体 二)数仓架构的流批一体 三)数据湖的流批一体 四)存储的流批一体 1.Pulsar 2.Hologres 1)Hologres的架构图 2)Hologres的流批一体 三、Flink中的流批一体 一)流批一体的DataStream 1.目前的原创 2022-03-12 18:39:43 · 10060 阅读 · 0 评论 -
大数据—— Flink 状态后端(State Backends)
大数据—— Flink 状态后端(State Backends)_Vicky_Tang-CSDN博客转载 2022-03-06 17:12:09 · 150 阅读 · 0 评论 -
flink教程-基于flink 1.11 使 sql客户端支持执行sql文件
Flink的SQL客户机可以在启动时读取YAML配置文件,该文件可以包括空闲状态保留规范。例如,您可以通过sql语言- client.sh嵌入式-e sql client-配置.yaml配置文件包含execution:planner: old # optional: either 'old' (default) or 'blink'type: streaming # required: execution mode either 'batch' or 'streaming'resu.原创 2021-06-05 15:51:20 · 348 阅读 · 0 评论 -
如何构建一个flink sql平台
存储对标mysql定义一个schema,schema的本质是什么?主要描述下面这些信息1)当前存储的物理位置的描述2)数据格式的组成形式然后Hive可以让用户定义一段sql,针对上面定义的schema进行,sql的本质是什么,是业务逻辑的描述。然后Hive内部会将这段sql进行编译转化为原生的底层MapReduce操作,通过这种方式,屏蔽底层技术原理,让业务开发人员集中精力在schema和sql业务逻辑上,flink sql平台也正是做同样的事情。一开始经过跟上海同事的讨论...转载 2021-04-22 18:45:34 · 354 阅读 · 0 评论 -
Flink SQL CDC 上线!我们总结了 13 条生产实践经验
作者:曾庆东,金地物业中级开发工程师,负责聚合营业平台实时计算开发及运维工作,从事过大数据开发,目前专注于apache flink实时计算,喜欢开源技术,喜欢分享。01 项目背景本人目前参与的项目属于公司里面数据密集、计算密集的一个重要项目,需要提供高效且准确的OLAP服务,提供灵活且实时的报表。业务数据存储在MySQL中,通过主从复制同步到报表库。作为集团级公司,数据增长多而且快,出现了多个千万级、亿级的大表。为了实现各个维度的各种复杂的报表业务,有些千万级大表仍然需要进行Join,计算规模.转载 2021-04-07 19:12:48 · 611 阅读 · 0 评论 -
基于 Flink SQL CDC 的实时数据同步方案
简介:Flink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化?本文由 Apache Flink PMC,阿里巴巴技术专家伍翀 (云邪)分享,内容将从传统的数据同步方案,基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示。整理:陈政羽(Flink 社区志愿者)Flink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化?本文由 Apache Flink PM...转载 2021-03-20 13:44:28 · 533 阅读 · 0 评论 -
Flink CDC 原理及生产实践
MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。本文档根据ververica官网翻译了如何设置MySQL CDC连接器以对MySQL数据库运行SQL查询。一、依赖关系为了设置MySQL CDC连接器,下表提供了使用构建自动化工具(例如Maven或SBT)和带有SQL JAR捆绑包的SQL Client的两个项目的依赖项信息。1、Maven依赖<dependency> <groupId>com.alibaba.ververica<.转载 2021-03-13 15:21:12 · 2332 阅读 · 0 评论 -
Flink on Hive构建流批一体数仓-flink1.12
Flink使用HiveCatalog可以通过批或者流的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过流处理的方式来读写Hive中的表,从而为实时数仓的应用和流批一体的落地实践奠定了坚实的基础。本文将以Flink1.12为例,介绍Flink集成Hive的另外一个非常重要的方面——Hive维表JOIN(Temporal Table Join)与Flink读写Hive表的方式。以下是全文,希望本文对你有所帮助。Flink写入Hive表Flink支持以批处...转载 2021-02-23 18:54:34 · 1515 阅读 · 1 评论 -
Flink WaterMark 详解
https://blog.csdn.net/hellojoy/article/details/100935362背景image实时计算中,数据时间比较敏感。有eventTime和processTime区分,一般来说eventTime是从原始的消息中提取过来的,processTime是Flink自己提供的,Flink中一个亮点就是可以基于eventTime计算,这个功能很有用,因为实时数据可能会经过比较长的链路,多少会有延时,并且有很大的不确定性,对于一些需要精确体现事件变化趋势的场景中,单纯原创 2021-02-16 22:15:33 · 848 阅读 · 0 评论 -
Flink 从 0 到 1 学习 —— Flink parallelism 和 Slot 介绍
原网址:https://blog.csdn.net/hellojoy/article/details/101449942前言之所以写这个是因为前段时间自己的项目出现过这样的一个问题: 123 Caused by: akka.pattern.AskTimeoutException: Ask timed out on [Actor[akka://flink/user/taskmanager_0#15608456]] after [10000 ms]. Sen转载 2021-02-16 21:17:47 · 185 阅读 · 0 评论 -
Flink 架构及其工作原理
转载自:https://www.cnblogs.com/code2one/category/1331180.html目录System Architecture Data Transfer in Flink Event Time Processing State Management Checkpoints, Savepoints, and State RecoverySystem Architecture分布式系统需要解决:分配和管理在集群的计算资源、处理配合、持久和可访问...原创 2021-02-14 22:18:12 · 208 阅读 · 0 评论 -
十六、Flink进阶--Flink checkpoint实现原理
前面我们已经了解过flink的状态,对于这些状态如何保存,我们一起学习一下flink的checkpoint机制,并了解一下rocksdb中的增量checkpoint是怎么实现的。Checkpoint实现原理Flink提供的checkpoint机制可以在流任务发生故障时,任务恢复之后,state只被处理一次 exactly once ,当然也可选为 at least once。checkpoint原理就是连续绘制分布式的快照,而且非常轻量级,可以连续绘制,并且不会对性能产生太大影响。默认情况...原创 2021-02-13 23:11:10 · 215 阅读 · 0 评论 -
实时数仓|基于Flink1.11的SQL构建实时数仓探索实践
实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线数仓会存在差异,但是关于数仓建设的基本方法论是一致的。本文会分享基于Flink SQL从0到1搭建一个实时数仓的demo,涉及数据采集、存储、计算、可视化整个处理流程。通过本文你可以了解到:实时数仓的基本架构 实时数仓的数据处理流程 Flink1.11的SQL新特性 Flink1.11存在的bug 完整的操作案例古人...原创 2021-02-12 11:51:25 · 446 阅读 · 0 评论 -
Flink1.10从0到1:(六)Flink的并行度和Slot
一、简介 Flink中每一个worker(TaskManager)都是一个JVM进程,它可能会在独立的线程(Solt)上执行一个或多个 subtask。Flink 的每个 TaskManager 为集群提供 Solt。Solt 的数量通常与每个 TaskManager 节点的可用 CPU 内核数成比例,一般情况下 Slot 的数量就是每个节点的 CPU 的核数。Slot的数量由集群中flink-conf.yaml配置文件中设 置taskmanager.numberOfTaskSlo...原创 2021-02-12 08:01:51 · 407 阅读 · 0 评论 -
Flink1.11从0到1:(七)Flink 常用 API 详解
前言:因flink升级至1.11,故后期版本至1.11一、简介 Flink 根据抽象程度分层,提供了三种不同的 API 和库。每一种 API 在简洁性和表达力上有着不同的侧重,并且针对不同的应用场景。ProcessFunction:是 Flink 所提供最底层接口。ProcessFunction 可以处理一或两条输入数据流中的单个事件或者归入一个特定窗口内的多个事件。它提供了对于时间和状态的细粒度控制。开发者可以在其中任意地修改状态,也能够注册定时器用以在未来的某一时...原创 2021-02-12 07:56:15 · 327 阅读 · 0 评论 -
Apache Flink 1.11 功能详解
https://www.aboutyun.com/thread-28843-1-1.html问题导读1.集群部署与资源管理方面有哪些改进? 2.WEB UI有哪些改进? 3.Table和SQL查询方面有哪些改进? Flink 1.11 版本即将正式宣告发布!为满足大家的好奇与期待,我们邀请 Flink 核心开发者对 1.11 版本的功能特性进行解读与分享。Flink 1.11 在 1.10 的基础上对许多方面进行了完善和改进,并致...原创 2021-02-11 17:36:50 · 337 阅读 · 0 评论 -
Flink(1.11)概述——含架构图
https://blog.csdn.net/weixin_46669856/article/details/110357874文章目录一、Flink概述 **1.1** **Flink and Spark** **1.2** **Flink or Spark** 二、wordCount案例 2.1 批处理 2.2 有界流 2.3 无界流 2.4 打成jar包上传到flink运行 三、运行环境 3.1 standalone模式 3.1.1 前端界原创 2021-02-11 15:00:49 · 379 阅读 · 0 评论 -
Flink 架构--官网译文(v1.11)
Flink是一个分布式系统,需要有效分配和管理计算资源才能执行流应用程序。 它与所有常见的群集资源管理器(如Hadoop YARN,Apache Mesos和Kubernetes)集成,但也可以设置为作为独立群集甚至库运行。本节概述了Flink的体系结构,并描述了Flink的主要组件如何交互以执行应用程序并从故障中恢复。Flink群集的剖析Flink运行时由两种类型的进程组成:一个JobManager和一个或多个TaskManager。客户端不是运行时和程序执行的一部分,而是...原创 2021-02-11 10:15:01 · 151 阅读 · 5 评论 -
Flink动态添加依赖Jar包提交到Yarn
本文链接:https://blog.csdn.net/ifenggege/article/details/113731793背景开发的flink程序,要使用yarn-cluster的方式进行部署。程序中依赖了很多第三方jar包,不想用shade那种打包方式打成一个大jar包,然后提交。想将应用程序jar包和依赖jar包分开,依赖的jar包在提交时一起提交上去(像spark on yarn直接指定“–jars”这样),但是找了好久发现flink官方没有提供这样的方式。直接将依赖的ja...转载 2021-02-10 17:36:02 · 4370 阅读 · 1 评论 -
Flink在YARN上支持的三种部署方式及使用方式
yarn cluster 模式部署介绍转载 2021-02-10 14:40:42 · 3417 阅读 · 1 评论 -
Flink深入浅出: 应用部署与原理图解(v1.11)
https://www.cnblogs.com/xing901022/p/13794162.html往期推荐:Flink深入浅出:内存模型Flink深入浅出:JDBC Source从理论到实战Flink深入浅出:Sql Gateway源码分析Flink深入浅出:JDBC Connector源码分析什么是Flink 之 架构篇什么是Flink 之 应用篇Flink在1.11版本新增了一种部署模式,目前支持三种:Session 模式、Per job 模式、Applicati.转载 2021-02-09 23:12:23 · 164 阅读 · 0 评论 -
Flink实战(七十九):flink-sql使用(七)流式SQL应用(实时使用)-flink1.10
随着Flink 1.10的发布,对SQL的支持也非常强大。Flink 还提供了 MySql, Hive,ES, Kafka等连接器Connector,所以使用起来非常方便。 接下来咱们针对构建流式SQL应用文章的梗概如下: 1. 搭建流式SQL应用所需要的环境准备。 2. 构建一个按每小时进行统计购买量的应用。 3. 构建每天以10分钟的粒度进行统计应用。 4. 构建按分类进行排行,取出想要的结果应用。1. 搭建流式应用所需要的环境准备 ...转载 2021-02-07 18:41:18 · 873 阅读 · 0 评论 -
Flink集成Hive之快速入门--以Flink1.12为例
使用Hive构建数据仓库已经成为了比较普遍的一种解决方案。目前,一些比较常见的大数据处理引擎,都无一例外兼容Hive。Flink从1.9开始支持集成Hive,不过1.9版本为beta版,不推荐在生产环境中使用。在Flink1.10版本中,标志着对 Blink的整合宣告完成,对 Hive 的集成也达到了生产级别的要求。值得注意的是,不同版本的Flink对于Hive的集成有所差异,本文将以最新的Flink1.12版本为例,阐述Flink集成Hive的简单步骤,以下是全文,希望对你有所帮助。Flink集...原创 2021-02-06 21:10:23 · 528 阅读 · 0 评论