InfoSphere Streams——实时大数据分析平台

最新推荐文章于 2024-07-29 11:23:38 发布

数控小J

最新推荐文章于 2024-07-29 11:23:38 发布

阅读量2.4k

点赞数

分类专栏：大数据处理数据可视化大数据平台搭建大数据应用数据分析文章标签：大数据数据可视化数据处理数据分析数据挖掘

本文链接：https://blog.csdn.net/chenjunji123456/article/details/52806437

版权

本文介绍了IBM的大数据平台组件InfoSphere Streams，它专注于实时处理海量流数据。文中详细阐述了InfoSphere Streams的设计目标、工作原理，以及与InfoSphere BigInsights的集成，展示了如何利用这两个工具执行复杂的数据分析。文章还探讨了大数据的挑战，强调了实时分析和理解互联网级信息的重要性。

摘要由CSDN通过智能技术生成

了解 InfoSphere Streams，它是 IBM 大数据平台的一部分。InfoSphere Streams 解决了针对能够实时处理生成的海量流数据的平台和架构的一种迫切需求。了解该产品的设计目标，它适用于哪些时机，其工作原理，以及它如何为 InfoSphere BigInsights 提供补充来执行高度复杂的分析。

来自多个来源的信息正在以难以置信的速度增长。互联网用户数量在 2015 年已经达到 22.7 亿。每一天，Twitter 都会生成超过 12 TB 的 tweet，Facebook 生成超过 25 TB 日志数据，纽约证券交易所采集 1 TB 交易信息。每天会创建大约 300 亿个射频识别 (RFID) 标记。此外，每年销售的数亿台 GPS 设备，目前正在使用的超过 3000 万个连网的传感器（而且每年在以高于 30% 的速度增长），都在产生数据。这些数据量预计在未来 10 年中每 2 年就会翻一番。

一家公司在一年时间内可生成高达数 PB 的信息：网页、博客、单击流、搜索索引、社交媒体论坛、即时消息、文本消息、电子邮件、文档、用户人口统计数据、来自主动和被动系统的传感器数据，等等。许多人估计，这些数据中高达 80% 都是半结构化或非结构化数据。公司一直在寻求更加敏捷地经营业务，以更加创新的方式执行数据分析和决策流程。而且他们认识到，这些流程中损失的时间可能导致错失业务机会。大数据挑战的核心是，公司掌握轻松地分析和理解互联网级信息的能力，就像他们现在可分析和理解较少量结构化信息一样。

IBM 正在帮助公司应对大数据挑战，为他们提供工具来集成和管理海量、高速产生的数据，应用原生格式的分析，可视化可用数据以进行专门分析，等等。本文将介绍 InfoSphere Streams，该技术支持您同时分析许多数据类型并实时执行复杂计算。您将了解 InfoSphere Streams 的工作原理，它的用途，以及如何结合使用它与另一个用于大数据分析的 IBM 产品（IBM InfoSphere BigInsights）来执行高度复杂的分析。

InfoSphere BigInsights：概述

MapReduce

MapReduce 框架（由 Google 引入）使得对商用计算机集群的编程可一次性地执行大规模的数据处理。一个 MapReduce 集群能够以容错方式扩展到数千个节点，以高度并行且经济高效的方式处理数 PB 数据。该框架的一个主要优点是，它依赖于一种简单而又强大的编程模型。此外，它将应用程序开发人员与运行一个分布式程序的所有复杂细节相隔离，比如与数据分发、调度和容错相关的问题。

理解 InfoSphere BigInsights 将会使您能够更全面地理解 InfoSphere Streams 的用途和价值。

BigInsights 是一个分析平台，可帮助公司将复杂的互联网级信息集转换为洞察。它包含一个套装的 Apache Hadoop 发行版（具有高度简化的安装流程）和用于应用程序开发、数据移动和集群管理的关联工具。得益于简单性和可伸缩性，Hadoop（MapReduce 框架的一种开源实现）在行业和学术界获得的巨大的成功。除了 Hadoop 之外，BigInsights 中的其他开源技术（除 Jaql 外的所有技术都属于 Apache Software Foundation 项目）包括：

Pig：该平台提供了一种高级语言来表达分析大数据集的程序。Pig 配备了一个编译器，可将 Pig 程序转换为 Hadoop 框架执行的 MapReduce 作业序列。
Hive：一个构建于 Hadoop 环境之上的数据仓库解决方案。它为 Hadoop 的非结构化世界带来了人们熟悉的关系数据库概念，比如表、列和分区，以及 SQL 的一个子集 (HiveQL)。Hive 查询被编译为使用 Hadoop 执行的 MapReduce 作业。
Jaql：IBM 专为 JSON（JavaScript Object Notation，JavaScript 对象表示法）开发的一种查询语言，提供了一种类似 SQL 的接口。Jaql 适度地处理嵌套，高度面向函数，而且非常灵活。它适用于松散的结构化数据，是 HBase 列存储和文本分析的接口。
HBase：一个面向列的 NoSQL 数据存储环境，旨在支持 Hadoop 中大型、稀疏填充的表。
Flume：一种分布式、可靠且可