- 博客(5)
- 收藏
- 关注
原创 大数据中流式计算中的Window机制
流式计算VS批式计算数据价值:实时性越高,数据价值越高批处理模型典型的数仓架构为T+1架构,即数据计算时天级别的,当天只能看到前一天的计算结果。通常使用的计算引擎为Hive或者Spark等。...
2022-07-29 19:12:22
400
1
原创 大数据Flink--详细的Exactly Once 语义在 Flink 中的实现
1.1随处可见的流式数据1.2传统SQL和流处理特征SQL流处理处理数据的有界性处理的表是有界的流是一个无限元组序列处理数据的完整性执行查询可以访问完整的数据执行查询无法访问所有的数据执行时间批处理查询产生固定大小结果后终止查询不断更新结果,永不终止1.3数据流和动态表转换动态表与表示批处理数据的静态表不同,动态表是随时间变化的。可以像查询静态批处理表一样查询它们。(1)数据流和动态表之间的转换;(2)在数据流的查询不会终止;(3)查询可能会有状态,用来不断更新查询的结果。...
2022-07-28 22:42:05
557
1
原创 Flink-流/批/OLAP一体得到Flink引擎
Flink对于流和批提供两种类型Shuffle,虽然Streaming和BatchShuffle在具体的策略上存在一定的差异,但本质上都是为了对数据进行Re-Partition,因此不同的Shuffle之间是存在一定共性的。(1)基于文件的PullBasedShuffle,比如Spark或MR,其特点是具有较高的容错性,适合较大规模的批处理作业,由于是基于文件的,它的容错性和稳定性会更好一些。...
2022-07-27 11:20:51
420
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人