Flink
xiaolongleee
玩儿大数据和Spring的
展开
-
Flink开发中遇到的问题及解法
1. 当Source是Kafka的时候,如何设置Source Operator的并发度?如果没有指定,Source Operator的个数与集群中的TaskManager的个数相等。如果手动设置,建议使用的slot个数=Kafka Partition的个数/TaskManager的个数。此时,Slot的个数需大于等于2.因为其中有一个Source Operator。也不建议在一个Slot中启用多线...原创 2018-04-09 10:00:12 · 16766 阅读 · 0 评论 -
流式处理框架的特点
分布式的流处理是对无界的数据集进行连续不断的处理,聚合,分析的过程。延迟需要尽可能的低(毫秒级或秒级)。这类框架通常采用有向无环图(DAG)来描述和处理作业拓扑。(线性处理也是一种DAG)。他们一般会抽取此类系统的底层通用模型,保证其易用性,健壮性和可扩展性。让开发者专注于业务实现。流式处理框架一般会包含如下特点:消息传输正确性保证:此类保障有三种:At Most Once:在框架中每条消息传输零...原创 2018-04-10 22:08:04 · 4055 阅读 · 0 评论 -
【翻译】Flink + Kafka 0.11端到端精确一次处理语义实现
本文是翻译作品,作者是Piotr Nowojski和Michael Winters。前者是该方案的实现者。原文地址是https://data-artisans.com/blog/end-to-end-exactly-once-processing-apache-flink-apache-kafka2017年12月Apache Flink社区发布了1.4版本。该版本正式引入了一个里程碑式的功能:两阶...翻译 2018-04-12 12:00:39 · 1980 阅读 · 1 评论