数据产生的越来越快、数据量越来越大,数据的来源越来越千变万化,数据中隐藏的价值规律更是越来越被重视!
为什么选择Flink
主要原因
1.Flink 具备统一的框架处理有界和无界两种数据流的能力
2.部署灵活,Flink 底层支持多种资源调度器,包括Yarn、Kubernetes 等。Flink 自身带的Standalone 的调度器,在部署上也十分灵活。
3.极高的可伸缩性,可伸缩性对于分布式系统十分重要,阿里巴巴双11大屏采用Flink 处理海量数据,使用过程中测得Flink 峰值可达17 亿条/秒。
4.极致的流式处理性能。Flink 相对于Storm 最大的特点是将状态语义完全抽象到框架中,支持本地状态读取,避免了大量网络IO,可以极大提升状态存取的性能。
总结:Flink以缓存块为单位进行网络数据传输,用户可以设置缓存块超时时间和缓存块大小来控制缓冲块传输时机,从而控制Flink的延迟性和吞吐量
Flink支持多种安装模式
-Local:本地单机模式,学习测试时使用
-Standalone:独立集群模式,Flink自带集群,开发测试环境使用
-StandaloneHA:独立集群高可用模式,Flink自带集群,开发测试及生产环境使用
-On Yarn:计算资源统一由Hadoop YARN管理,生产环境使用