分享一下,flink的一些概念,以及优势。
Flink是什么?
-
Flink是一个分布式计算引擎,支持流计算和批处理
-
Flink的优势
1.和Hadoop相比, Flink使用内存进行计算, 速度明显更优2.和同样使用内存的Spark相比, Flink对于流的计算是实时的, 延迟更低,Spark并非真正的流式计算
3.和同样使用实时流的Storm相比, Flink的吞吐量更大,提供了更优秀的API, 支持批量计算
- 在单机上, Flink大概能达到35万条/秒的吞吐量, 这个数据大概是Storm得3-5倍
- 在单机上, Flink消息处理的延迟大概在200毫秒左右, 这个数据大概是Storm的3-5倍
FLink和Spark对比:
Spark | Flink | |
---|---|---|
定义 | 弹性的分布式数据集,不是真正的实时计算 | 真正的实时计算,而且支持批处理 |
容错 | 沉重 | 非常的轻量级 |
内存管理 | JVM相关操作暴露给用户 | 在JVM中实现了自己的内存管理 |
程序调优 | 只有SQL有自动的优化机制 | 自动地优化一些场景, 避免特定情况下Shuffle、sorts等昂贵操作, 还有对一些中间结果缓存 |
Flink的应用
Flink在很多公司的生产环境中得到了使用, 例如: ebay, 腾讯, 阿里, 亚马逊, 华为等