基于storm的实时框架

最新推荐文章于 2021-01-13 19:38:19 发布

guoqiangma

最新推荐文章于 2021-01-13 19:38:19 发布

阅读量2.3k

点赞数

分类专栏： storm

本文链接：https://blog.csdn.net/guoqiangma/article/details/23466675

版权

storm 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍了实时计算的重要性和核心架构，重点讨论了基于storm的实时计算框架，包括数据采集、流数据计算及实时查询。文章列举了如Scribe、Kafka和Flume等数据采集工具，并提到了storm的spout和bolt组件，以及数据在HDFS、MySQL和Redis中的存储和查询。此外，还探讨了其他实时流计算框架如Twitter Storm、Yahoo S4和Facebook Puma的对比。

摘要由CSDN通过智能技术生成

核心的实时架构和基于storm的实时架构的设计.

一、实时的框架简介

背景

数据流计算来自于一个信念：数据的价值随着时间的流逝而降低，所以事件出现后必须尽快地对它们进行处理，最好数据出现时便立刻对其进行处理，发生一个事件进行一次处理，而不是缓存起来成一批处理。

核心架构

互联网上海量数据（一般为日志流）的实时计算过程可以被划分为以下三个阶段：数据的产生与收集阶段、传输与分析处理阶段、存储对对外提供服务阶段。

数据采集(流数据输入)

主要是为实时框架提供输入实时的数据流，秒级别的数据并传入实时框架。目前，互联网企业的海量数据采集工具，有Facebook开源的Scribe、LinkedIn开源的Kafka、Cloudera开源的Flume，淘宝开源的TimeTunnel、Hadoop的Chukwa等，均可以满足每秒数百MB的日志数据采集和传输需求。

Facebook Scribe
Scribe：https://github.com/facebook/scribe
Cloudera
Flume：https://github.com/cloudera/flume/
LinkedIn
Kafka：http://sna-projects.com/kafka/
淘宝TimeTunne
http://code.taobao.org/p/TimeTunnel/
Hadoop Chukwa
http://incubator.apache.org/chukwa/

典型实时流计算框架(流数据计算)

目前业界诞生了许多系统，它们仿照MapReduce约束编程模型的方式，为了获取更好的执行效率，这些系统包括，微软的DAG任务计算模型Dryad、Google的图批量同步处理系统Pregel和增量式计算框架Percolator，Yahoo!的数据流计算系统S4、NYU的共享内存处理系统Piccolo以及Berkeley的交互式实时处理系统Spark等等。

Twitter Storm
Yahoo S4
Facebook Puma
Puma、Storm和S4三种数据流计算系统对比
典型的三个数据流计算系统Puma、Storm和S4，它们分别适用于站点统计、社交网络和广告投放等应用：

上图从开发语言、高可用机制、支持精确恢复、主从架构、资源利用率、恢复时间、支持状态持久化及支持去重等几个方面对这三种系统进行了对比。可以看到，为了高效开发，两个系统使用Java，另一种系统使用函数式编程语言Clojure；高可用方案，有两个系统使用Passive Standby方式，系统恢复时间可控，但系统复杂度增加，资源使用率也较低，因为需要一些机器用来当备机；而Storm选择了更简单可行的上游回放方式，资源使用率高，就是恢复时间可能稍长些；Puma和S4都支持状态持久化，但S4目前不支持数据去重，未来可能会实现；三个系统都做不到精确恢复，即恢复后的执行结果和无故障发生时保持一致，因为即使是Passive Standby方式，也只是定期Checkpoint，并没有跟踪每条消息的执行。商用的StreamBase支持精确恢复，这主要应用于金融领域。

国内外一起企业的应用情况

淘宝的实时计算、流式处理
1. 银河流数据处理平台:通用的流数据实时计算系统，以实时数据产出的低延迟、高吞吐和复用性为初衷和目标，采用actor模型构建分布式流数据计算框架（底层基于akka），功能易扩展、部分容错、数据和状态可监控。银河具有处理实时流数据（如TimeTunnel收集的实时数据）和静态数据（如本地文件、HDFS文件）的能力，能够提供灵活的实时数据输出，并提供自定义的数据输出接口以便扩展实时计算能力。银河目前主要是为魔方提供实时的交易、浏览和搜索日志等数据的实时计算和分析。
2. 基于storm的流式处理，统计计算、持续计算、实时消息处理。
3. 利用HBase实现的online应用。

其它
Twitter的Rainbird：Rainbird 是一款分布式实时统计系统, Rainbird可以用于实时数据的统计：
(1)统计网站中每一个页面，域名的点击次数,(2)内部系统的运行监控（统计被监控服务器的运行状态），(3) 记录最大值和最小值
官方简介：http://www.slideshare.net/kevinweil/rainbird-realtime-analytics-at-twitter-strata-2011
中文介绍：http://www.cnblogs.com/gpcuster/archive/2011/02/06/1949466.html
StreamBase：http://www.streambase.com
StreamBase是IBM开发的一款商业流式计算系统，支持精确恢复，在金融行业和政府部门使用
HStreaming：http://www.hstreaming.com/
Esper
esper可以用在股票系统、风险监控系统等等要求实时性比较高的系统中
官方网站：http://esper.codehaus.org/
官网的英文简介：http://www.espertech.com/products/esper.php
中文简介：http://www.cnblogs.com/qlee/archive/2011/06/22/2086550.html

实时查询(流数据查询、展示结果)

全内存: 直接提供数据读取服务，定期dump到磁盘或数据库进行持久化。
半内存: 使用Redis、Memcache、MongoDB、BerkeleyDB等内存数据库提供数据实时查询服务，由这些系统进行持久化操作。
全磁盘: 使用HBase等以分布式文件系统（HDFS）为基础的NoSQL数据库，对于key-value引擎，关键是设计好key的分布*.*