40亿条/秒！Flink撑起阿里双11世界级流量！

最新推荐文章于 2022-07-09 14:37:31 发布

58沈剑

最新推荐文章于 2022-07-09 14:37:31 发布

阅读量434

点赞数

文章标签：分布式大数据 flink 人工智能编程语言

原文链接：https://j.naixuejiaoyu.com/1Am224rHWYU?putcode=jgszl\x26amp;key=be

版权

本文介绍了Flink在阿里双11中的关键作用，对比了Flink与Spark在流处理上的优势，并指出Flink的高效容错、低延迟和事件时间处理能力。阿里通过Flink实现了大数据的实时计算，推动Flink成为大厂主流数据处理框架。

摘要由CSDN通过智能技术生成

身为大数据工程师，还在学Spark、Hadoop、Storm，却没研究过Flink？刚过去的2020双11，阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”，基于Flink的阿里巴巴实时计算平台，效果非常稳定。

阿里双十一的数据量，有多庞大？

今年阿里的实时计算峰值达到了破纪录的每秒40亿条记录，数据量也达到了惊人的7TB每秒，相当于一秒钟需要读完500万本《新华字典》。Flink的强悍之处，阿里屡试不爽。

不同数据处理方式，有何区别？

大数据起源于批处理，在批处理上，Spark有很深的积累。为了应对全球大量业务的实时需求，Spark也推出了流计算解决方案——SparkStreaming。但Spark毕竟不是一款纯流式计算引擎，所以在时效性等问题上，始终无法提供极致的流批一体体验。

而后起新秀Flink的基本数据模型则是数据流，以及事件(Event)的序列。数据流作为数据的基本模型，可以是无边界的无限“流”，即一般意义上的流处理；也可以是有边界的有限“流”，也就同时兼顾了批处理。

关于以上，阿里搜索事业部资深搜索专家蒋晓伟曾谈到：

Spark和Flink都具有流和批处理能力，但是他们的做法是相反的。Spark Streaming是把流转化成一个个小的批来处理，这种方案的一个问题是我们需要的延迟越低，额外开销占的比例就会越大，这导致了Spark Streaming很难做到秒级甚至亚秒级的延迟。Flink是把批当作一种有限的流，这种做法的一个特点是在流和批共享大部分代码的同时还能够保留批处理特有的一系列的优化。

相比于Spark，Flink有什么优势？