声明:本系列博客为原创,最先发表在拉勾教育,其中一部分为免费阅读部分。被读者各种搬运至各大网站。所有其他的来源均为抄袭。
《2021年最新版大数据面试题全面开启更新》
一、说好的流批一体呢?
1、现状
Flink并没有安全支持所谓的“流批一体”,即编写一套代码,可以同时支持流式计算和批量计算的场景。目前版本1.10依然采用DataSet和DataStream两套API来适配不同的应用场景。
2、DataSet和DataStream的区别和联系
Flink诞生支持的设计哲学就是:用同一个引擎支持多种形式的计算,包括批处理、流处理和机器学习。尤其在流式计算方面,Flink实现了计算引擎级别的流批一体。对于普通开发者而言,如果要使用原生的Flink,直接的感受还是要编写两套代码。
整体架构如下:
在Flink源码中,可以在flink-java这个模块中找到所有关于DataSe

本文介绍了Flink的DataSet和DataStream的区别,强调DataStream在实时计算中的广泛应用。文章详细讲解了DataStream API,包括自定义实时数据源、Map、FlatMap、Filter、KeyBy、Aggregations和Reduce等操作,阐述了每个操作的用途和注意事项,特别是KeyBy和Aggregations在数据处理中的潜在问题。
订阅专栏 解锁全文
179

被折叠的 条评论
为什么被折叠?



