Hadoop, MapReduce,Hive, HBase, Storm, Spark, Flink, Kylin等大数据框架的角色和关系

  各种大数据框架近几年发展得如火如荼,比如Hadoop, MapReduce,Hive, Hbase, Storm, Spark, Flink, Kylin 等,各个框架的角色是怎么样的?如何配合起来使用?本文将从时间顺序上逐个说明。 首先要介绍一下Hadoop,现在Hadoop分为3部分,...

2019-01-17 14:38:17

阅读数 360

评论数 0

Flink的window机制

Window在流式计算中很重要,因为”流”是一个无终点的持续输入,所以通过window机制来分块,进行聚合等各种处理 Keyed vs Non-Keyed Windows Non-key window是在整个流上进行分块,没法并行处理 Window Assigners 分为4种窗口类型,...

2018-12-26 09:43:27

阅读数 64

评论数 0

Flink的可靠性保证 – CheckPoint机制

Flink支持Exactly-Once级别的准确行,这是一个很高的要求,一般的高吞吐量系统只支持At-least-Once级别的。Lightweight Asynchronous Snapshots for Distributed Dataflows 这篇论文是Checkpointing 机制的理...

2018-12-25 16:01:33

阅读数 130

评论数 0

Flink的可靠性保证 - 状态存储

一 为什么需要State存储 与批计算相比,State是流计算特有的,批计算的failover机制,是失败后重新计算;流计算在大多数场景下是增量计算,数据逐条处理,每次计算是在上一次计算结果之上进行处理的,这就要求对上一次的计算结果进行存储,当因为机器,网络,脏数据等原因导致程序错误的时候,可以...

2018-12-25 10:58:28

阅读数 173

评论数 0

Flink流式计算里的时间和watermark机制

一 流计算对“批计算”的优势:     “流计算”是相对于“批计算”来的,MapReduce,Spark底层的计算方式是目前主流的“批计算”实现方式,很多公司在使用这种方式做大数据处理。但是越来越多的公司目前开始关注“流计算”,主要有以下一些原因: 1 对处理时间的要求。随着技术的进步,用户对...

2018-12-24 16:45:34

阅读数 118

评论数 0

Storm常用计算模式

Apache Storm是目前最流行的实时计算框架之一,基于 streams, spouts, bolts, and topologies这些基本组件,可以组合出一些计算模式,每个模式对应解决一类现实中的问题。 下面介绍7种计算模式,并给出代码示例,希望对读者有所帮助: 模式1:...

2017-03-02 17:47:36

阅读数 282

评论数 0

分布式实时系统STORM的运行时模型

一 storm的静态模型     storm的静态模型比较好理解,弄清楚Topology,Spout,Bolt,Stream的含义大概就明白了,不清楚的可以看看strom文档中的Concepts部分。 但是storm是个并行执行的框架,运行状态下的模型是怎么样的呢? 二 storm运行...

2017-03-02 13:36:21

阅读数 829

评论数 0

SVM(支持向量机)算法原理和实际应用

的说法是 1 对svm有个直观的了解,最好的解释是下面这个 http://www.zhihu.com/question/21094489 https://www.reddit.com/r/MachineLearning/comments/15zrpp/please_explain_s...

2016-12-23 15:09:35

阅读数 8977

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭