流计算:即时信息(入门级)

转载 2008年12月18日 16:46:00
传统的数据操作,首先将数据采集并存储在DBMS中,然后通过query和DBMS进行交互,得到用户想要的答案。整个过程中,用户是主动的,而DBMS系统是被动的。但是,对于现在大量存在的实时数据,比如股票交易的数据,这类数据实时性强,数据量大,没有止境,传统的架构并不合适。
流计算(Stream Computing)就是专门针对这种数据类型准备的。在流数据不断变化的运动过程中实时地进行分析,捕捉到可能对用户有用的信息,并把结果发送出去。和传统的架构不同,“the  stream-based model inverts the traditional data management model by assuming  users  to  be  passive  and  the  data  management system to be active. ”

下面的这篇是关于流计算的入门级文章,原文地址:http://www.ibm.com/developerworks/cn/db2/db2mag/dbt13n4/dbt13n4_f2/
英文原版地址: http://www.ibmdatabasemag.com/story/showArticle.jhtml?articleID=211300227
如果想更加深入的了解,可以在文章的末尾找到更多的相关链接。





希腊哲学家赫拉克利特说,“人不可能两次踏入同一条河流。” 当然,他指的不是高速流动的数据流。


当今的数据传输速度快、流量大,从数据流中提取数据并了解它们的含义是很困难的。但是,这正是 IBM 新的 InfoSphere Streams 技术的目标 —— 在以传统的方式存储数据流之前,实时探查它并分析其内容。

InfoSphere Streams 可以在数据 “运动” 过程中捕捉并分析关键信息,并把结果立即发送给某人或另一台计算机。这种技术背后的核心业务思想是:及时的信息有巨大的价值。例如,“沙特阿拉伯的输油管 道遭到袭击” 这样的消息会对石油贸易造成重大影响。但是,流计算的作用不仅仅是提取各种新闻:它可以把来自多个数据流的信息组合起来,执行复杂的预测性分析。

IBM 把这些功能称为流计算,流计算功能是业务事件处理 (BEP) 功能的一个具有预测性质的特殊子集。不管如何称呼它,一些行业观察家认为这种技术意义重大。


机会和需求

自 从数据流一出现,就有分析数据流并从中获取有用信息的需求;但是,直到几年前,仍然只有那些非常大的银行和政府机构能够通过昂贵的定制系统满足这种计算需 求。 IBM 正在致力于为广泛的业务应用程序提供通用的事件处理功能 —— InfoSphere Streams 是重要的一步。

流计算的研究尚处在起步阶段,这是一个新兴的产品开发领域。这个技术领域的出现是因为客户面对的信息量急剧增加,而且他们需要更快地解释信息并根据信息采 取措施。 IBM 多年的一个研究项目(当前称为 “ System S ”)致力于开发一种难度较大的硬件和软件组合,以满足业务事件处理的速度和分析需求。 InfoSphere Streams 当前属于 IBM 的 BEP 技术和产品组合,其中包含 InfoDyne(用于低延迟信息分析)、AptSoft(用于复杂事件处理的软件)、Solid Information Technology(高速内存数据缓存和分析)和 Cognos Now!(事件驱动的 BI 技术)。

InfoSphere Streams 的目标是提供一个完整的独特的产品系列,让金融服务、公共卫生、安全、制造、科学研究等领域的许多不同客户都能够使用它。


包含许多部分的平台

IBM 把实时事件处理分解为六种操作 —— 筛选、关联、分类、转换、注解和决策,这些操作可以组合成一个连续的处理流。通过使用适当的硬件和软件,InfoSphere Streams 可以捕捉数据流、筛选内容并调用复杂的分布式事件计算,从而在几毫秒内把数据关联、分类和转换为有价值的信息。

数据流本身可以来自几乎任何数据源,包括 RSS feed、Internet 新闻和公司内 / 公司间数据。这种数据的性质各异 —— 尽管还不算是 “非结构化数据”。 WebSphere Business Monitor、IBM InfoDyne、WebSphere Message Broker、Tivoli Netcool/Impact、IBM Mashup Center、WebSphere MQ Low Latency Messaging 和特殊用途的适配器都可以与 InfoSphere Streams 结合使用,从而帮助收集和排序流数据。然后,把数据交给各种事件处理操作器。

InfoSphere Streams 的特色之一是可以以多种方式扩展:从处理简单的业务规则和单一信息项扩展为处理复杂的任意的连续信息;从每秒处理 10,000 条消息扩展为在几毫秒内处理数百万条消息;从使用单一处理器扩展为使用数百(或数千)个节点。很自然,这种系统的硬件最好是刀片服务器组,或者 IBM System p 等其他并行处理系统,或者大规模并行的 IBM Blue Gene/P 。但是,InfoSphere Streams 并没有限制使用的硬件;因此,它也可以在并行度比较低的系统上运行。

通过由 WebSphere Business Events、IBM Data Studio、IBM solidDB 和 InfoSphere Warehouse 提供的软件系统组织巨大的计算。


把信息发送到哪里?

流计算的价值就在于它能够产生预测性信息。一场飓风会对石油贸易造成什么影响?将正确的信息及时地交付给适当的人(或者系统)帮助其做出决策,这个过程的价值是不可估量的。

InfoSphere Streams 为人和计算机提供了各种工具。例如,商人要应对各种困难的局面,这需要经验和人工评估。 IBM Cognos Now!、IBM Mashup Center 和 IBM WebSphere MQ 等产品要以适当的形式(比如 dashboard)向用户显示信息。有时候,需要把信息交付给自动交易系统。

如果您注意到上面这些场景都涉及许多不同的产品,就会明白流计算的困难之处 —— 必须仔细地完成许多集成任务。

InfoSphere Streams 分析通常是在传统的数据管理系统之外执行的。 IBM 把这称为 “运动过程中的” 数据分析,它与事后对存储数据库中数据进行分析相对。但是,这种分析的结果也可以保存在传统数据库中,比如 DB2 。因为处理的毕竟是数据,在一般情况下 DBA 最终可能会负责管理事件处理。


流计算的影响

IBM 用 “超级计算” 来描述实时事件处理。在某些情况下,确实如此。

先不说体育比赛直播回放,当前的趋势表明事件处理将成为常见甚至主流的计算形式。借用 IBM 的另一个说法:“能够感知真实世界” 的计算。系统能够感知来自各种传感器的信息(视频、热量、音频等等),并把大量实时数据发送给各种系统(医疗、制造、科学研究、司法等等)。在不远的将 来,廉价的传感器将无处不在;流计算对于发挥这些设备的作用是必不可少的。这将开启一个全新的计算时代。

IBM 的许多业务事件处理形式(包括 InfoSphere Streams)正在逐渐成熟起来。目前,让每个企业都实现流计算还不容易或不适合,但是这种情况很快就会改变了。在不远的将来,我们将以赫拉克利特不曾想像的速度处理信息流。


参考资料



到底什么是流计算(Stream Computing)

我写这篇文章的当前时间是 2009年1月5日。在这一天用google或者是Baidu搜索“stream computing”,出现在首页最多的是关于ATi发布“stream computing”技术的...
  • historyasamirror
  • historyasamirror
  • 2009年01月06日 11:03
  • 22453

流式计算介绍

MapReduce Hold不住? 作者: baiyuzhong分类:云计算  阅读:12,312 次添加评论 文/杨栋 本文系统地介绍和分析比较了业界主流的Yahoo! S4、Stream...
  • dux003
  • dux003
  • 2011年10月26日 21:05
  • 12244

流计算:即时信息(入门级)

传统的数据操作,首先将数据采集并存储在DBMS中,然后通过query和DBMS进行交互,得到用户想要的答案。整个过程中,用户是主动的,而DBMS系统是被动的。但是,对于现在大量存在的实时数据,比如股票...
  • historyasamirror
  • historyasamirror
  • 2008年12月18日 16:46
  • 8081

OllyDbg完全教程 一般原理[General principles]

二,一般原理[General principles]我希望您能对80x86系列处理器的内部结构有所了解,同时具有一定的编写汇编程序的能力。对于Microsoft Windows方面的知识,您也要熟悉。...
  • paste
  • paste
  • 2006年06月10日 08:48
  • 5166

上帝的即时信息

上帝:你好,你是不是呼叫我?我:  呼叫你?没有啊,你是谁?上帝:我是上帝。我听到你的祷告,你希望我们能聊一下。我:是啊,我确实在祷告——这能让我心情舒服一点。但我现在确实很忙,我正在处理某件事情。上...
  • kofiory
  • kofiory
  • 2009年04月29日 20:52
  • 397

流式处理、实时计算、Add-hoc、离线计算、实时查询等区别

流式处理、实时计算、Add-hoc、离线计算、实时查询 这几个概念在数据处理中经常提高,这里简单的梳理一下他们的区别。 流处理、实时计算属于一类的,即计算在数据变化时,都是在数据的计算实时性要求...
  • yuxin6866
  • yuxin6866
  • 2016年11月17日 16:15
  • 1860

Flink:下一代流计算平台?

Flink是一个基于流计算的分布式引擎,以前的名字叫stratosphere,从2010年开始在德国一所大学里发起,也是有好几年的历史了,2014年来借鉴了社区其它一些项目的理念,快速发展并且进入了...
  • lzljs3620320
  • lzljs3620320
  • 2016年04月11日 21:37
  • 2101

从入门级到企业级:云服务器支持「共享型」升级「独享型」

云服务器ECS在2016年全面推出独享型服务器家族,提供了提供更好的SLA,更强的带宽,更稳定的计算能力。非常适合对业务稳定性具有高要求的严肃企业场景使用,有效保障核心服务器的性能指标。具体细节参见 ...
  • lihuixin_
  • lihuixin_
  • 2017年08月21日 16:29
  • 513

浅谈实时数据流计算

1.引言 近年来,一种新的数据密集型应用已经得到了广泛的认同,这类应用的特征是:数据不宜用持久稳定关系建模,而适宜用瞬态数据流建模。这些应用的实例包括金融服务、网络监控、电信数据管理、Web应用...
  • IT_HY
  • IT_HY
  • 2012年11月08日 16:21
  • 2296

实用河网水流计算

  • 2013年11月04日 21:28
  • 979KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:流计算:即时信息(入门级)
举报原因:
原因补充:

(最多只允许输入30个字)