Flink
文章平均质量分 89
hellozhxy
这个作者很懒,什么都没留下…
展开
-
Flink架构及工作原理
System Architecture分布式系统需要解决:分配和管理在集群的计算资源、处理配合、持久和可访问的数据存储、失败恢复。Fink专注分布式流处理。Components of a Flink SetupJobManager :接受application,包含StreamGraph(DAG)、JobGraph(logical dataflow graph,已经进过优化,如task chain)和JAR,将JobGraph转化为ExecutionGraph(physical dataflow转载 2021-09-07 17:13:13 · 693 阅读 · 0 评论 -
Flink基本架构
Flink是新的stream计算引擎,用java实现。既可以处理stream data也可以处理batch data,可以同时兼顾Spark以及Spark streaming的功能,与Spark不同的是,Flink本质上只有stream的概念,batch被认为是special stream。Flink在运行中主要有三个组件组成,JobClient,JobManager 和 TaskManager。主要工作原理如下图 用户首先提交Flink程序到JobClient,经过JobClient的处理、解..转载 2021-09-07 17:06:05 · 614 阅读 · 0 评论 -
Flink架构原理
一、流式任务执行过程1.任务并行 按照自己的理解,一个流程如下图所示,除非经历shuffle过程,否则流程并行度将由source的并行度决定,比如kafka分区数目,shuffle之后的并行度,可能会改变,Operator子任务(Task)彼此独立,并且可以在不同的线程中执行,并且可能在不同的机器或容器上执行。2.OperatorChain 原理同Spark 的Satge划分相似,为了减少数据在传输过程中的序列化和反序列化损耗,将一些可以合并的Task进行合并,合并之后称多个Task...转载 2021-09-07 16:51:15 · 104 阅读 · 0 评论 -
Flink基本原理
一、简介开源流式处理系统在不断地发展,从一开始只关注低延迟指标到现在兼顾延迟、吞吐与结果准确性,在发展过程中解决了很多问题,编程API的易用性也在不断地提高。本文介绍一下 Flink 中的核心概念,这些概念是学习与使用 Flink 十分重要的基础知识,在后续开发 Flink 程序过程中将会帮助开发人员更好地理解 Flink 内部的行为和机制。这里引用一张图来对常用的实时计算框架做个对比:Flink 是有状态的和容错的,可以在维护一次应用程序状态的同时无缝地从故障中恢复。它支持大规模计算能力,转载 2021-09-06 10:51:37 · 445 阅读 · 0 评论 -
Flink完全分布式集群安装
Flink支持完全分布式模式,这时它由一个master节点和多个worker节点构成。在本节,我们将搭建一个如下的三个节点的Flink集群。一、Flink集群安装、配置和运行Flink完全分布式集群搭建步骤如下:1、配置从master到worker节点的SSH无密登录,并保持保节点上相同的目录结构。2、Flink要求在主节点和所有工作节点上设置JAVA_HOME环境变量,并指向Java安装的目录。使用如下命令检查Java的安装和版本信息: $ java -version3、转载 2021-05-17 18:56:47 · 670 阅读 · 0 评论 -
Flink安装及使用
本地部署安装 在官网安装Flink,并解压到/usr/local/flink sudo tar -zxf flink-1.6.2-bin-hadoop27-scala_2.11.tgz -C /usr/localcd /usr/local 54388226982 修改文件名字,并设置权限 sudo mv ./flink-*/ ./flinksudo chown -R hadoop:hadoop ./flink 修改配转载 2021-05-17 16:26:34 · 1795 阅读 · 0 评论 -
快手基于 Flink 的持续优化与实践
简介: 快手基于 Flink 的持续优化与实践的介绍。一、Flink 稳定性持续优化第一部分是 Flink 稳定性的持续优化。该部分包括两个方面,第一个方面,主要介绍快手在 Flink Kafka Connector 方面做的一些高可用,是基于内部的双机房读或双机房写和一些容错的策略。第二部分关于 Flink 任务的故障恢复。我们在加速故障恢复方面做了一些优化工作。首先,介绍 Source 方面的高可用。在公司内部比较重要的数据写 Kafka 时,Kafka 层面为保障高可用一般..转载 2021-03-08 17:18:02 · 127 阅读 · 0 评论 -
Bigo 实时计算平台建设实践
本文由 Bigo 计算平台负责人徐帅分享,主要介绍 Bigo 实时计算平台建设实践的介绍。内容包括:Bigo 实时计算平台的发展历程 特色与改进 业务场景 效率提升 总结展望一、Bigo 实时计算平台的发展历程今天主要跟大家分享 Bigo 实时计算平台的建设历程,我们在建设过程中解决的一些问题,以及所做的一些优化和改进。首先进入第一个部分,Bigo 实时计算平台的发展历程。先简单介绍一下 Bigo 的业务。它主要有三大 APP,分别是 Live, Likee 和 Imo。其中,Live转载 2021-03-01 11:00:00 · 326 阅读 · 0 评论 -
Flink 助力美团数仓增量生产
简介: 本文由美团研究员、实时计算负责人鞠大升分享,主要介绍 Flink 助力美团数仓增量生产的应用实践。内容包括:1、数仓增量生产;2、流式数据集成;3、流式数据处理;4、流式 OLAP 应用;5、未来规划。一、数仓增量生产1.美团数仓架构先介绍一下美团数仓的架构以及增量生产。如下图所示,这是美团数仓的简单架构,我把它叫做三横四纵。所谓三横,第一是贯穿全链路的元数据以及血缘,贯穿数据集成、数据处理、数据消费、以及数据应用的全过程链路。另外一块贯穿全链路的是数据安全,包括受限域的认证系统、权限系转载 2021-01-28 17:15:48 · 251 阅读 · 0 评论 -
基于 Flink+Iceberg 构建企业级实时数据湖 | 附 PPT 下载
扫描下面二维码,回复Flink可获取该 PPT...转载 2020-10-09 11:35:06 · 321 阅读 · 1 评论