蜗牛爱上星星

一只贪玩的蜗牛

Stream Processing:滑动窗口的聚集(aggregation)操作的优化算法讲解

在实时计算的流处理中,因为数据是以流的形式不断流入实时处理,把流数据保留到内存中以待以后再处理不是一个明智的选择,一般情况下是采用窗口window来缓存最近的一部分流数据,针对这部分数据处理得到结果。有多中window,包括tumble window,session window,sliding ...

2019-01-18 22:54:05

阅读数 279

评论数 0

Stream Processing:Apache Flink快照(snapshot)原理

本文将要讲解的是Apache Flink的分布式流处理的轻量级异步的快照的原理。网上已经有几篇相关的博文,而本文的不同之处在于,它不是论文的纯粹翻译(论文地址),而是用自己的语言结合自己的理解对其原理的阐述。 本文将同下面几个方面讲解: 什么是快照?为什么需要快照? 跟其他系统的快照相比...

2019-01-07 20:29:57

阅读数 377

评论数 0

Stream Processing: S4系统模型分析和关键源码读解

S4(Simple Scalable Stream System) 流数据处理系统是Yahoo!公司提出的,在2011年的时候成为Apache软件基金下的一个孵化项目,可惜的是在2014年的时候该孵化项目“退休”了,具体原因未知!!从这里可以了解它当前的状态信息:link. 阅读了所发表的论文S4...

2018-12-17 09:48:24

阅读数 106

评论数 0

Stream Processing: Apache Kafka的Exactly-once的定义 原理和实现

2018年,Apache Kafka以一种特殊的设计和方法实现了强语义的exactly-once和事务性。热泪盈眶啊! 这篇文章将讲解kafka中exactly-once和事务操作的原理,具体为(1)exactly-once在kafka中的定义。(2)数据生产者的幂等操作和kafka的事务性支持...

2018-10-03 15:17:27

阅读数 1553

评论数 1

下推自动机详讲 包含Java实现 Pushdown Automata (PDA)

下推自动机也可以叫下推有限自动机或者下推状态机,是一种实现无上下文语法的方法,类似于我们为常规语法所设计的有限状态机, 它是有限自动机的增强版。和有限状态机相比,它多了一个叫栈的数据结构。所以相比于有限状态机,它更加强大,能够记忆更多的内容。 实现源码 (Java) Source Code of...

2018-09-02 09:26:45

阅读数 1269

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭