Flink作为新一代的大数据分布式的计算引擎,具有更快的计算速度,更好的实现了数据的流式处理,更有阿里团队在大力的推进Flink的开发,所以学习Flink对于大数据行业来说是十分必要的;
学习它是为了在实际工作中用到,那具体要学习Flink中的那些内容呢,下面来列举一下:
学习内容
一、基础篇
1.了解flink的基本特点:流和批的思想、事件驱动、分层API等
2.各个特点应用的场景,数据管道应用
3.Flink的集群安装,及本地运行模式,yarn模式,Standalone模式等的区别和特点
4.idea导入依赖和开发基本入门级别WordCount代码
二、进阶篇
1.flink的运行架构,几种角色的组成jobmanager,客户端,taskmanager等
2.基本概念:slots,并行度,task、subtask、operator chains(任务链)、executionGraph(执行图)
3.DataStream核心转换算子的使用的,理解source,transform、sink常用的算子
4.Flink TableApi 和FlinkSQL的使用
5.FlinkCEP的使用及概念的理解
三、高阶篇
1.Flink的状态编程,状态分类:键控状态,算子状态,状态的作用等
2.Flink的容错机制,精准一次的实现,端到端的一致性
3.checkpoint原理及实现
4.Flink的watermark的原理和使用
5.flink窗口机制的使用和类,滚动窗口和滑动窗口
6.flink实战,join的实现等
四、成神篇
1.源码实现
2.内部通信机制的实现
3.作业提交流程的具体源码实现
4.内存管理
5.背压机制等
学习路径
知道了要学习那些东西,那么资料从哪里来呢,首先就是官网了,他是最准确和最全面的一项技术的学习资料,一般我们看到的技术资料也是从官网上得来的。
但是因为官网一方面英文(不过因为Flink是阿里团队在力推和主导的,所以也支持了中文版的,可以的话还是英文吧,毕竟更准确),另一方面开始学习很难把握找到自己需要先重点看的内容也就提升了难度,那下面我就来简单的说一下官网的使用;
首页的Flink整体的功能特点介绍,学习具体的内容肯定就是学习对应的文档了,就是下文中圈红的部分
知道了官方文档在哪里找到然后就是下载部署安装了,就是在文档的上面,点进去就可以对应下载需要的版本了可以了
另外就是学习的重点了,官方文档的学习,基本都是需要学习了解了,首先你要先了解整体的Flink的相关的概念
其次你要学习了解相关的DataStream相关的API,才可以真正的用好Flink强大的功能
除此之外就如先前所讲官方文档基本都需要去了解和掌握,要耐着性子一步步的学习当然这其中可以结合各种博客等资料配合着理解学习,降低入门的难度。
后期也会针对Flink的知识点分享对应的学习文章,对Flink大数据和编程学习感兴趣的小伙伴也可以关注我的公众号(迪答),分享大数据、编程相关的文章、学习方法、资料~