Flink
文章平均质量分 92
Android路上的人
开源社区爱好者, Apache Hadoop PMC & Apache Ozone PMC, 专注于分布式存储领域, 大数据方面的研究
展开
-
Flink在大规模状态数据集下的checkpoint调优
文章目录前言Checkpoint快慢的性能指标相邻Checkpoint的间隔时间设置外部State的存储选择前言众所周知,Flink内部为了实现它的高可用性,实现了一套强大的checkpoint机制,还能保证作用的Exactly Once的快速恢复。对此,围绕checkpoint过程本身做了很多的工作。在官方文档中,也为用户解释了checkpoint的部分原理以及checkpoint在实际生...原创 2018-12-26 20:06:22 · 5304 阅读 · 1 评论 -
Flink流计算中SQL表的概念和原理
文章目录前言动态表和动态查询的概念动态表的时间属性引用前言Fink在新发布的1.7版本中,不断完善和加强了SQL&Table API方面的功能支持。这使得在流计算过程中,用户同样能够运用熟悉的SQL语句来做数据处理,查询。但是相比于窗体的RDBMS而言,流计算过程中的SQL处理难免让人觉得不是很好理解,毕竟数据不是fixed-sized的,而是连续不断的。所以本文,笔者来聊聊这个略显...原创 2018-12-22 15:02:57 · 2918 阅读 · 0 评论 -
Flink流处理过程的部分原理分析
文章目录前言前言在分布式领域,计算和存储一直是两大子领域。很多分布式理念在计算和存储的实现中会有着完全不同的逻辑,比如我们快照,计算框架中的快照和我们平常说的存储快照实现不同点在于哪里呢?笔者做为一个研究存储模块出身的人,最近在研读Flink流处理的部分原理,小小作番总结。很多时候,以存储的眼光来看待计算过程中的处理过程,还是有很多不一样的地方的。...原创 2018-12-19 23:20:07 · 12167 阅读 · 1 评论 -
当我们在谈论Flink的时候,我们到底在谈论些什么
前言目前每当我们聊到当下热门的计算引擎的时候,无一例外地会聊到Apache Flink:当下非常火热的流处理计算框架。更是有人拿它和Spark做对比,到底哪个才是现今最好的计算引擎。当然这个已经不是本文所要阐述的主题啦。老实话,笔者本人做的比较多的还是存储领域,对计算领域的知识不敢说是内行。最近也是抽空学习了下Flink的一些概念体系,来分享分享笔者的一个学习心得吧。# Apache Fli...原创 2018-12-08 15:43:12 · 1348 阅读 · 0 评论 -
Flink FileSystem的connector分析
文章目录前言FileSystem的RollingSinkFileSystem连接器的Exactly Once恢复语义FileSystem Sink的文件状态转换Checkpoint下的Exactly Once恢复前言从目前最新的Flink代码来看,现在它能够支持越来越多的connector类型了,不仅仅说包括于前面的Source的连接,还有后面Sink的选择。但是Flink的连接器不是简简单...原创 2019-01-06 12:15:10 · 2771 阅读 · 0 评论 -
Flink JobManager的HA原理分析
文章目录前言前言在中心式管理的系统里,主节点如果只是单独服务部署的话,或多或少都会存在单点瓶颈(SPOF)问题。所以我们说现在的分布式系统都要求具有高可用性(High Availability)的实现。同样的,在早期Flink runtime层面,JobManager也没有完全做到HA的实现,这使得运行时的任务存在失败无法及时恢复的风险。不过在最新的代码里,Flink社区已经完善了这块的实现...原创 2019-01-12 11:30:20 · 2201 阅读 · 0 评论 -
Flink的State概述
文章目录前言Flink的State类型基本类型划分组织形式划分前言当我们经常在谈论一个Flink任务是否是有状态的,此时我们谈论的点其实就是Flink内部的State的概念。但是这里的State的概念已经不是单纯指我们平时所说的Event–>State这样的比较固定的概念,更确切地说,它是一种运行间的数据信息。这些状态数据在容错恢复及checkpoint时将起到很关键的作用。本文笔者来...原创 2019-01-18 23:14:02 · 7673 阅读 · 1 评论