stream process
链巨人
这个作者很懒,什么都没留下…
展开
-
Stream Processing:滑动窗口的聚集(aggregation)操作的优化算法讲解
在实时计算的流处理中,因为数据是以流的形式不断流入实时处理,把流数据保留到内存中以待以后再处理不是一个明智的选择,一般情况下是采用窗口window来缓存最近的一部分流数据,针对这部分数据处理得到结果。有多中window,包括tumble window,session window,sliding window。而sliding window算是最常用的,它的属性有window length和sli...原创 2019-01-18 22:54:05 · 2729 阅读 · 0 评论 -
Stream Processing: S4系统模型分析和关键源码读解
S4(Simple Scalable Stream System) 流数据处理系统是Yahoo!公司提出的,在2011年的时候成为Apache软件基金下的一个孵化项目,可惜的是在2014年的时候该孵化项目“退休”了,具体原因未知!!从这里可以了解它当前的状态信息:link. 阅读了所发表的论文S4:Distributed Stream Computing Platform之后,发现该系统模型有其独...原创 2018-12-17 09:48:24 · 1001 阅读 · 0 评论 -
Stream Processing: Apache Kafka的Exactly-once的定义 原理和实现
2018年,Apache Kafka以一种特殊的设计和方法实现了强语义的exactly-once和事务性。热泪盈眶啊!这篇文章将讲解kafka中exactly-once和事务操作的原理,具体为(1)exactly-once在kafka中的定义。(2)数据生产者的幂等操作和kafka的事务性支持。(3)exactly-once的流处理。1. 什么是恰好一次exactly-onceexact...原创 2018-10-03 15:17:27 · 4799 阅读 · 1 评论 -
下推自动机详讲 包含Java实现 Pushdown Automata (PDA)
下推自动机也可以叫下推有限自动机或者下推状态机,是一种实现无上下文语法的方法,类似于我们为常规语法所设计的有限状态机, 它是有限自动机的增强版。和有限状态机相比,它多了一个叫栈的数据结构。所以相比于有限状态机,它更加强大,能够记忆更多的内容。实现源码 (Java) Source Code of Pushdown Automata在这篇博文中,我们打算使用和有限状态机作相比较的方法来讲解。下...原创 2018-09-02 09:26:45 · 8404 阅读 · 1 评论 -
Stream Processing:Apache Flink快照(snapshot)原理
本文将要讲解的是Apache Flink的分布式流处理的轻量级异步的快照的原理。网上已经有几篇相关的博文,而本文的不同之处在于,它不是论文的纯粹翻译(论文地址),而是用自己的语言结合自己的理解对其原理的阐述。本文将同下面几个方面讲解:什么是快照?为什么需要快照?跟其他系统的快照相比,Apache Flink快照的原理有哪些优点?Apache Flink的快照原理是什么?1. 什么是快...原创 2019-01-07 20:29:57 · 2885 阅读 · 0 评论