【云星数据---Apache Flink实战系列(精品版)】：Apache Flink实战基础003--flink特性：流处理，批处理珠联璧合

最新推荐文章于 2024-09-08 20:45:29 发布

李国华技术博客

最新推荐文章于 2024-09-08 20:45:29 发布

阅读量7.6k

点赞数 1

分类专栏： bigdata cloudcomputing flink 文章标签： apache spark 批处理数据

本文链接：https://blog.csdn.net/liguohuabigdata/article/details/78511548

版权

bigdata 同时被 3 个专栏收录

187 篇文章 2 订阅

订阅专栏

cloudcomputing

183 篇文章 0 订阅

订阅专栏

flink

86 篇文章 57 订阅

订阅专栏

二、流处理，批处理珠联璧合

1.同一个运行时环境，同时支持流处理，批处理

这里写图片描述

1.flink的一套runtime环境，统一了流处理，批处理，两大业务场景
2.flink本质是一个流处理系统，同时它将批处理看出特殊的流处理，因此也能应付批处理的场景

注意：
1.这与spark相反，spark本质是一个批处理系统，它将流处理看成特殊的批处理的。
2.spark-streaming本质是mirc-batch，无论多么mirc依然是batch,因此延时较大。
3.spark的本质是批处理，它将流处理看出无边界的批处理
4.flink的本质是流处理，它将批处理看出有边界的流处理。

2.实现了自己的内存管理机制

这里写图片描述

1.flinK在jvm内部实现了自己的内存管理机制，以提高内存使用效率，防止大规模GC.
2.flink将大规模的数据存放到out-heap内存，以防止在jvm的heap中创建大量对象，而引起大规模GC.

注意：
不知spark是否受到flink的启发，现如今spark也实现了自己的内存管理机制，那就是Tungsten计划。

3.支持迭代和增量迭代

这里写图片描述

1.flinK支持迭代和增量迭代操作（这一特性在图计算和机器学习领域非常有用）
2.增量迭代可以根据计算的依赖关系，优化计算环境，获得最好的计算效率

hadoop MR的迭代计算

这里写图片描述

spark的迭代计算

这里写图片描述

flink的迭代计算

这里写图片描述

flink在迭代计算过程中自动优化

这里写图片描述

spark和Hadoop的迭代计算都是在driver端由用户自己实现的，flink是原生支持迭代计算。这一点上做的比较优秀。

4.支持程序优化

这里写图片描述

1.flink的批处理场景下可以根据计算的依赖关系，自动的避免一些昂贵的不必要的中间操作（诸如：sort,shuffle等）
2.flink会自动缓存一些中间结果，以便后续计算的多次使用，这样能显著的提高效率。

李国华技术博客

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录