- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 Apache Beam简介
Apache Beam的前世今生 Apache Beam前身是Google Dataflow SDK,DataFlow是谷歌的提供大数据计算平台。在DataFlow之前,谷歌的批处理和流处理(流计算,实时处理)使用了不同系统,流处理有MillWheel、FlumeJava等,批处理有MapRedude,不同的平台使用了不同的Api,无疑提升了开发的难度,所以DataFlow横空出世,提出了
2017-09-20 23:46:26 6701
翻译 Streaming 102批处理之外的流处理世界
Steaming 101介绍了基本的术语,有限数据(bounded)VS无限数据(unbounded),然后是批处理和流处理的区别,在介绍完术语之后,阐述了事件时间和处理时间这两个重要概念,在Steaming 102中增加了3个新的概念:Watermark、触发器、累积。最终介绍了批处理和流处理的统一模型。
2017-09-18 14:06:41 5399
翻译 Streaming 101批处理之外的流处理世界
Streaming 101批处理之外的流处理世界 本文整理谷歌Tyler Akidau写的两篇文章,对于技术人员来理解大数据计算中的一些概念非常有用。原文写于2015年,所以对有些问题的是不准确的,但是不影响文章所表达的主要宗旨。前序 流处理在大数据当中是一大难题,理由如下:对于业务来说,数据的时效性越来越重要,从批处理切换到流处理是降低延迟的好方法。
2017-09-13 09:12:00 4866
翻译 Apache Beam适时有状态计算
Timely (and Stateful) Processing with Apache Beam。在先前的Apache Beam中的有状态计算中,介绍了Apache Beam中有状态计算的基础知识,重点介绍了对每个元素的处理中添加的状态特性。所谓的适时处理,是有状态计算的补充,是通过设置定时器来,在将来某个时间点上的(有状态的)进行回调。
2017-09-22 15:50:36 1495
翻译 Apache Beam中的有状态计算
Beam帮助我们处理流式、乱序、大规模的数据,并且提供了高度的抽象机制Pipeline,统一了流式和批量数据处理。 从功能上流处理可以分为无状态(stateless)的和有状态(stateful)两种。在流处理的框架里引入状态管理大大提升了系统的表达能力,让用户能够很方便地实现复杂的处理逻辑,是流处理在功能上的一个飞跃。以下提到State或者状态是相同的概念。 有状态计算是Apa
2017-09-22 14:04:11 2267
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人