1.统一的数据处理组件栈,处理不同的数据需求,有batch,stream,machinelearning,graph等
2.支持事件时间,接入时间,处理时间等时间概念。
3.基于轻量级分布式快照实现容错(主动的savepoint和被动的checkpoint)
4.支持有状态计算
5.支持高度灵活的窗口操作(滑动,滚动,会话窗口)
6.带反压的连续流模型(自带反压,进行生产消费监测,当消费能力弱与生产能力,则通过master监控传递并减少生产速度)
7.基于JVM实现了自己的内存管理(应用可以超出主内存大小的限制,并承承受更少的垃圾回收开销,对象序列化会二进制存储)
本文探讨了统一的数据处理组件栈,它支持多种数据需求,包括批处理、流处理、机器学习和图计算。文章强调了事件时间、接入时间和处理时间的概念,并详述了基于轻量级分布式快照的容错机制,如savepoint和checkpoint。此外,还介绍了有状态计算、灵活的窗口操作以及带反压的连续流模型,确保生产与消费的平衡。最后,提到了JVM内存管理和优化,允许应用程序处理超出主内存的数据,同时降低GC开销。
654

被折叠的 条评论
为什么被折叠?



