在最近的过去,IT行业一直占据着两个主导趋势。 一种是主要由云技术支持的加速IT基础架构优化。 另一个是处理大量数据(通常称为大数据 )的必要性。
如今,在IT领域中并行发生了一些潜在的破坏性创新。 随着可植入设备,可穿戴设备,便携式设备和网络物理系统(CPS)的数量不断增加,设备生态系统正朝着数十亿个连接的电子设备空前增长。 关键业务的操作,交易和分析系统正变得越来越普遍,而社交网站已被全世界越来越多的人所拥护。 数以千计的所谓“智能物品”(包括椅子,沙发,桌子,床等)正在被数字化并投入使用,而前所未有的强大的科学技术实验也在不断进行。
传统上,分析主要针对业务数据,以寻求业务洞察力。 如今,数据规模巨大,而数据范围,速度和结构却发生了巨大变化。 对于任何个人,创新者和机构而言,数据的价值取决于以明智和有见地的方式处理数据的方式。
新兴的两个大学科是大数据分析和快速数据分析。 全球产品供应商正在提供新技术,平台和工具,以简化和简化的方式支持这些学科。
在本文中,我们展示了如何通过使用IBM SoftLayer Cloud以可负担和加速的方式为全球用户提供数据分析作为服务的方式。 我们回顾了IBM SoftLayer Cloud如何使用大数据和快速数据分析来实现分析即服务(AaaS)的目标。
大数据和快速数据分析领域的趋势
大数据分析正在超越人们的求知欲,并开始切实影响业务运营,产品和前景。 大数据分析不再仅仅是炒作或流行语,而是很快将成为各种商业企业的中心宗旨。
同时,实时分析已成为热门需求。 例如,工厂需要使用实时数据(例如传感器数据)来检测工厂和机械中的异常情况。
分析公共云中的大数据和实时数据
过去,大多数传统的数据仓库和商业智能(BI)项目都涉及收集,清理和分析从本地关键业务系统中提取的数据。 尽管这种古老的做法很快就会改变,但许多组织不太可能急于将其关键任务系统或数据(客户,机密和公司)移至公共云环境中进行分析。 但是,企业为了业务运营和交易目的而采用云模型。
当前,云计算的最大潜力在于处理云中心中已经存在的数据。 许多功能性网站,应用程序和服务一定会早于而不是晚于基于云的。 最终,每种有形资产将与基于云的服务无缝集成。 例如,地面传感器和执行器越来越多地与基于云的软件捆绑在一起。 这样的发展表明,未来的数据分析将在云环境中蓬勃发展。
如今,公共云本身就提供了多种大数据分析平台和工具,以便以可承受的成本加速数据分析。 广域网优化技术正在Swift成熟,以大幅度减少网络延迟,同时在地理上分散的云之间将大量数据从一个系统传输到另一个系统。 联邦,开放,连接和可互操作的云方案正在设计中,我们预见通过开放标准和更深层次的自动化,云将很快问世。
随着新功能和新能力(例如软件定义的计算,存储和网络)的不断采用和阐明,基于云的数据分析将得到极大发展。
在混合云和公共云中过滤和匿名化数据
在未来几年中,混合云的价值将急剧攀升,因为混合和多站点IT环境适用于大多数新兴场景。 对于分析空间,可行的混合云用例是在捕获数据后不久从数据集中过滤掉敏感信息,然后使用公共云对它们执行任何复杂的分析。 例如,如果目标是分析数TB的医疗数据以识别总体医疗模式,则各个患者的身份详细信息就不相关。 在这种情况下,过滤器可以在推送匿名数据以保护云数据存储之前清理名称,地址,社会保险号等。
软件系统正在稳步进行现代化,并转移到云环境中,尤其是通过网络订阅并用作服务的公共云。
另一个值得注意的发展是,全世界人们正在使用的各种社交网站正在涌现并加入主流计算。 例如,Facebook每天至少倒出8 TB的数据。 同样,其他社交网站会产生大量的个人,社交和专业数据,而不仅仅是评论,投诉和广告。 这种多结构数据在塑造数据分析领域中起着重要作用。
其他值得注意的趋势包括将企业级的运营,交易,商业和分析系统迁移到公共云。 例如,SalesForce( http://www.salesforce.com/what-is-salesforce/ )是提供CRM即服务的创始公共云。 因此,大多数企业数据起源于公共云。 随着公共云预计将快速增长,云数据为基于云的数据分析提供了另一个机会。
混合云中的当代分析
除了传统的业务分析之外,上面讨论的趋势还需要能够管理大数据和实时数据的新型分析。 这些分析分为特定领域分析和与领域无关的分析类别。
重要的是,对IT基础设施的各种数据(例如设备,电子设备和其他设备)进行操作分析,以便对其进行预测性维护。 换句话说,对网络设备数据进行预测分析取决于进行操作分析。
每个行业领域都有其大数据分析。 对于不同的数据速度,肯定需要实时和流分析。 在确定云环境适合数据分析时,需要考虑以下几个参数:
- 数据量和速度
- 对计算,存储和网络资源的影响
- 数据的敏感性以及法规和合规性要求
- 分析范围
- 环境类型
云环境中的下一代数据分析应用程序和平台
基于云的数据分析一直在Swift发展,以期获取云范例的所有好处。 以下列出了迁移到云的潜在主要好处:
- 敏捷性和可承受性-无需大规模IT基础设施的资本投资。 只需使用并付款。
- 大而快速的数据平台-部署和使用任何类型的大数据平台(通用或特定,开放或商业级)进行分析都非常快捷。
- 端到端Hadoop平台-这些平台正在执行数据虚拟化,提取,处理,挖掘,分析和信息可视化任务。
- 数据管理系统-并行,群集,分布式SQL数据库,NoSQL和NewSQL数据库在云中可用。
- 数据仓库系统-最近,正在实现数据仓库即服务(DWaaS)功能。
- 社交网站,移动应用程序商店和类似应用程序-流行的社交媒体和网络应用程序正在公共云上运行。
- WAN优化技术-已经出现了用于通过Internet基础结构有效传输数据的WAN优化产品和平台。
- 云中的业务应用程序—使用企业信息系统(EIS),业务关键打包应用程序(如ERP , CMS , SCM , KM等)也被部署在云中。
- 云集成商,经纪人和协调者—提供了用于在不同的分布式系统,服务和数据之间实现无缝互操作性的产品和平台。
- 运营,交易和分析系统正在现代化,迁移并托管在云中。
- 设备,传感器和其他机器正在与云原生应用程序以及已启用的应用程序,服务和数据集成。
我们创建了许多概念证明(PoC),以了解基于云的大数据和快速数据分析。 ( 注 :这些文章目前正在审阅中,发布后将通过IBM developerWorks提供。)
以下各节描述了可在IBM SoftLayer Cloud中运行的各种平台,数据库和工具,这些工具用于简化和简化作为全球客户和客户的服务的分析。
IBM SoftLayer Cloud中的大数据分析平台
个人,创新者和机构越来越多地利用云基础架构提供的敏捷性和成本效率。 企业IT基础架构的这种“云化”还提供了其他一些优势。
大多数开发人员都认为Hadoop是自信地处理大数据的最重要方法。 符合Hadoop的数据分析平台的成熟度和稳定性水平正在推动公司走向大数据分析。 基于Hadoop的平台正被稳定地带到云环境中,以提供灵活敏捷的大数据分析。
如前所述,云基础架构被定位为最适合大数据分析的基础架构。 市场上有几种开源以及Hadoop规范的商业级实现,包括Cloudera,Hortonworks和MapR。 以Apache Hadoop为基础的IBM InfoSphere BigInsights是最受欢迎的Hadoop商业实现。
Cloudera Enterprise专为关键任务环境而设计,包括Cloudera数据中心(CDH),世界上最流行的基于Hadoop的开源平台以及先进的系统管理和数据管理工具。 Cloudera Enterprise包括Cloudera Manager,可帮助您轻松部署,管理,监视和诊断集群问题。 Cloudera对于大规模运营集群至关重要。
考虑到它们的灵活性和弹性,对于关键的Apache Hadoop工作负载,云环境正变得越来越流行。 借助Cloudera Director,您可以毫不妥协地释放Hadoop在云中的全部潜力。
SoftLayer Cloud不仅可以为您的高性能计算集群提供潜在的无限资源,还可以为您提供更多资源。 它还使使用Cloudera管理的Hadoop易于管理。
我们已经在SoftLayer Cloud中部署了Hortonworks和MapR Hadoop平台。 典型的基于云的解决方案包括部署在SoftLayer Cloud上的存储,处理和管理组件,该组件提供了可扩展,优雅,高效且弹性的环境来处理数据。 其他好处包括极高的灵活性,高性能,敏捷性和按使用付费,从而消除了前期成本。
也可以在SoftLayer Cloud上使用的IBM BigInsights具有以下优点:
- 加速并简化集群部署-无需内部部署基础架构即可利用大数据分析。
- 可根据您的业务需求进行扩展—保持基础架构成本与业务需求的变化相一致。
- 提供高级工具以缩短实现价值的时间-从Big SQL,Big Sheets,文本分析等中获取价值。
- 优化性能并增强安全性-专用的裸机基础架构可提高体验速度和可靠性。
- 提供专业知识和最佳实践-专门的云运营团队的好处,该团队根据最佳实践部署集群。
IBM SoftLayer Cloud中的实时分析平台
在云环境中,也可以成功完成对快速数据和流数据的实时分析。 在本节中,我们将说明如何将两个平台现代化并迁移到IBM SoftLayer Cloud中心,以说明与基于云的实时分析相关的问题,挑战和变更。
现在,数据正在以前所未有的数量生成和捕获,传统的数据分析平台和基础架构必将面临各种约束。 我们需要强大,弹性的算法和IT解决方案,以处理大而快速的数据。 意识到日益严峻的挑战的几家产品供应商正在积极推出大数据分析系统,以促进将捕获和合并的数据顺利过渡到信息和知识。
数据虚拟化,数据库,仓库,数据集市和多维数据集,商业智能(BI)和可视化解决方案对于成功的知识提取和工程设计至关重要。 VoltDB是用于大数据,高速OLTP和实时分析的高性能,可伸缩的关系数据库管理系统(RDBMS)。 VoltDB是一种NewSQL数据库,是一种运行在现代横向扩展计算基础架构上的超快速数据库。 与传统的RDBMS产品和NoSQL数据存储区不同,VoltDB支持高速应用程序,而无需复杂且昂贵的分片层或损害事务数据完整性( ACID )来获得性能和规模。
VoltDB提供:
- 数据库吞吐量达到每秒数百万次操作
- 按需缩放
- 高可用性,容错性和数据库持久性
- 实时数据分析
VoltDB部署在SoftLayer Cloud中,以展示其实时和真实世界的能力,以产生可行的见解。
除了数据大小和结构,数据速度也非常重要。 跨行业的特定用例正在出现,需要快速的数据分析。 数据正在更新,封装并作为消息传递。 数据和事件消息正以形式化的构造块形式出现,可以被接收,打开,解析并用于各种更深入,更具决定性的分析。 来自较新数据源(例如传感器,机器,操作系统,平台等)的数据流(多媒体)和事件需要实时进行系统地捕获和分析。 尽管云被定位为最优化的核心IT基础架构,但有几种开源和商业级平台可用于自动化实时和流分析。
Apache Storm是这样一种实时分析平台。 一个免费的开源分布式实时计算系统,Apache Storm使轻松可靠地处理无限数据流变得容易。 因此,它可以进行实时处理,而Hadoop可以进行批处理。 Storm很简单,可以与任何编程语言一起使用。 它有很多用例:实时分析,在线机器学习,连续计算,分布式RPC , ETL等。
Apache Storm很快。 一个基准测试结果表明,Storm在每个节点每秒处理超过一百万个元组。 它具有可扩展性,容错性,可确保您的数据将得到处理,并且易于设置和操作。 Storm与您已经使用的排队和数据库技术集成在一起。 Storm拓扑使用数据流并以任意复杂的方式处理这些流,并根据需要在计算的每个阶段之间重新分配流。 我们在IBM SoftLayer Cloud中部署了Apache Storm的实例,并选择了一个小用例,以展示基于云的Storm的功能以及实现目标的方式。
SoftLayer Cloud中的高性能大数据分析
每个人都同意,在当今世界,高性能是关键。 在不同的方面已经表达出了对云环境不能保证高性能的担忧。 因此,在云上托管高性能平台对于确保云托管的服务和工作负载的高性能非常重要。
大数据分析(BDA)作为一种数据密集型活动而兴起,它需要高端IT基础架构和集成平台来简化和简化通常与任何数据分析相关的任务。 当前,从大型机,集群,网格和设备到超级计算机,有几种可行的选项可以有效地完成数据分析。 Hadoop平台是实现多结构数据山的经济高效分析的最受追捧的平台。 高性能计算(HPC)是应对BDA引发的基础设施挑战时最适合采用的计算模型。
我们的PoC之一展示了如何将Netezza软件解决方案系统地转移到IBM SoftLayer Cloud,并在那里进行配置,并用于以较低的总拥有成本(TCP)和高投资回报率完成下一代实时分析( RoI)。 我们提供了示例应用程序的所有相关详细信息,这些示例应用程序强调了基于云的Netezza在满足高性能数据分析的各种要求方面的强大功能。
IBM SoftLayer Cloud中的流分析
流计算不断地集成和分析运动中的数据,以提供实时分析。 它进一步使组织能够检测到高速数据中的洞察力(风险和机会),这些洞察力可在瞬间通知下被发现并采取行动。 来自实时数据(例如市场数据,机器,智能手机,传感器和执行器,点击流,甚至是交易)的高速数据流在很大程度上尚未开发。
IBM Cloud Analytics Application Services提供了高性能集群,可在预先装有行业领先的大数据软件的专用裸机基础架构上运行企业级大数据和分析工作负载。
IBM InfoSphere Streams是这种云分析的受支持软件,它是一个高级分析平台,它使用户开发的应用程序可以在从成千上万个实时来源获得的信息中快速提取,分析和关联信息。 该解决方案可以处理非常高的数据吞吐率,每秒高达数百万个事件或消息。
许多组织需要实时处理大量数据以进行实时分析或ETL或即时响应事件。 实时分析大数据流已成为许多垂直行业的独特需求。
我们已经在IBM SoftLayer Cloud中部署了DataTorrent ,并验证了DataTorrent如何履行其对大数据流分析的承诺。 DataTorrent是企业级软件平台,使企业能够在将数据流式传输到数据中心时实时地对结构化或非结构化数据执行任何类型的数据处理或转换。 利用Hadoop 2.0,DataTorrent是YARN本地应用程序平台。 它可以直接安装到现有的Hadoop集群上,直接连接到所有传入的数据源,并在流进来时对内存中的数据执行任何类型的处理或转换。DataTorrent将处理所有扩展系统的容错能力,使企业可以专注于其业务逻辑。
DataTorrent支持当今最苛刻的任务关键型大数据流应用程序。 它使您能够快速开发应用程序,以实时地从各种来源中提取大量数据,并实时执行高度可扩展的计算。 借助DataTorrent,您可以利用现有的Hadoop环境进行实时流处理。 我们使用了一个示例应用程序,以向读者展示如何以简化的方式实现基于云的实时分析应用程序。
IBM SoftLayer Cloud中的端到端大数据分析平台
通常,Hadoop平台会进行预处理,处理和分析以进行知识发现。 但是端到端的大数据分析平台涉及数据收集,虚拟化,提取,分析和可视化模块。 只需单击一下,即可快速安全地完成所有工作。
Datameer就是这样一种平台。 Datameer是专为Hadoop构建的,可实现从原始数据到新见解的最快时间。 它的任务是消除与大数据分析相关的任务的复杂性,并使每个人都可以在数分钟而不是数月内做出数据驱动的决策。 数据科学家或多种技术工具不再需要对数据进行建模,集成,清理,准备,分析和可视化。 Datameer是一站式商店,用于将您的所有数据放入Hadoop,分析该数据,发现知识并可视化被压缩为首选形式和格式的见解。 Datameer可以处理来自多个源的各种数据,如下图2所示。 它已成功安装在IBM SoftLayer Cloud环境中,并通过示例应用程序进行了测试,以展示其独特的功能。
IBM SoftLayer Cloud中的数据库
多功能的内存计算,NoSQL和NewSQL数据库,并行文件系统等都是重要的IT解决方案,可以在弹性云中托管和运行。
NoSQL数据库
让我们看一下这些NoSQL数据库:
- HBase的
- 阿帕奇·卡桑德拉(Apache Cassandra)
- 气钉
HBase是在Hadoop分布式文件系统(HDFS)之上运行的面向列的数据库管理系统。 HBase是NoSQL数据库,非常适合稀疏数据集。 与SQL不同,它不支持结构化查询语言。 一个HBase系统包括一组表,每个表必须具有一个定义为主键的元素。 对HBase表的所有访问尝试都必须使用此主键。 HBase列表示对象的属性,并允许将许多属性组合到一起,称为列族 。 使用HBase,您必须预定义表架构并指定列系列。 但是,HBase非常灵活,因为可以随时将新列添加到族中,从而使架构有可能适应不断变化的应用程序需求。
HBase是每个标准Hadoop发行版的一部分,并已安装在IBM SoftLayer Cloud中。 在某些使用场景下,借助基于云的HBase数据库可以成功执行大数据分析(BDA)。
市场上还有其他一些功能强大的高端NoSQL数据库。 例如,Facebook Cassandra和Google BigTable是进入云环境的流行数据库管理系统。
当您需要可伸缩性和高可用性而不影响性能时, Apache Cassandra数据库是一个绝佳的选择。 线性可扩展性和在商品硬件或云基础架构上经过验证的容错能力使其成为关键任务数据的理想平台。 Cassandra对跨多个数据中心的复制提供了一流的支持,为您的用户提供了更低的延迟,并且知道您可以在区域中断中幸存,因此安心无忧。
Cassandra的数据模型通过日志结构化更新的性能,对非规范化和实例化视图的强大支持以及强大的内置缓存,为列索引提供了便利。 该数据模型也已部署在IBM SoftLayer Cloud中。
Basho Riak是SoftLayer Cloud中提供的另一个NoSQL数据库。 其他知名数据库(例如MongoDB)也被带到云中。
Aerospike是开源的分布式NoSQL数据库,已针对内存中和基于SSD的索引和数据存储进行了优化。 Aerospike是从头开始构建的现代数据库,旨在突破闪存,处理器和网络的限制。 它的设计目的是在高吞吐量下以可预测的低延迟运行,并且可靠性不受影响。 它不需要合并用于分片和集群更改的逻辑,从而极大地简化了开发人员的工作量。 这种改变游戏规则的数据库解决方案还消除了担心数据丢失或停机的麻烦。
Aerospike是必须立即感知并做出响应的实时大数据或上下文驱动的应用程序的理想选择。 它以内存速度和全球规模运行,并具有企业级的可靠性。 相同的Aerospike服务器可以横向扩展以形成无共享群集,该群集透明地对数据进行分区,并使跨节点的处理并行进行。 集群中的节点是相同的:您可以从两个节点开始,然后添加更多硬件。 群集线性扩展。
我们已经将Aerospike数据库的实例迁移到IBM SoftLayer Cloud环境,并对其进行了配置以实现其承诺。
IBM SoftLayer Cloud中的MySQL数据库
ScaleBase为公共,私有和混合云环境中的MySQL数据库和应用程序带来了弹性,可伸缩性和持续的高可用性。 ScaleBase使即时,透明的MySQL横向扩展成为可能,并利用小型,廉价服务器共同工作的能力。 由ScaleBase Analysis Genie提供支持的基于策略的数据分发(自动分片)以及具有可识别复制的读/写拆分功能的智能负载平衡可实现操作负载和吞吐量的增长。 它们还可以提高应用程序性能,并防止使用高峰和负载峰值的变化。
ScaleBase的自动故障转移和故障回复功能可确保业务连续性,并防止意外和预期的停机。 它们还简化了不同的正在进行的维护任务,例如软件和硬件升级,所有这些都不影响应用程序或数据库的可用性。 将应用程序从具有单个正在增长的数据库的托管环境迁移到具有更小,更易于管理的数据节点的虚拟化环境的能力为公司带来了敏捷性,灵活性和竞争力。
ScaleBase专为云部署而构建。 它可以在私有云上运行,也可以在公共云上运行。 为了准备将ScaleBase解决方案并将其迁移到IBM SoftLayer公共云,我们已经执行了初始手续。 我们已经进行了必要的配置更改,并创建了一个小的示例应用程序来运行和检查ScaleBase在联机,非本地和按需云环境中的功能。 这些步骤构成了我们为数据和流程密集型应用程序支持公共云产品的策略的主要部分
IBM SoftLayer Cloud中的NewSQL数据库
从本质上讲,NewSQL结合了两个方面的最佳功能:它在保持传统数据库系统的事务完整性的同时,还提供了NoSQL系统的高端可扩展性能。 性能和规模的结合在交易密集型环境中至关重要。 基于NoSQL的数据系统正以可扩展性的前景席卷着成功的浪潮。 NewSQL数据库试图通过高速事务完整性的额外优势来取代NoSQL。
VoltDB(本文前面已描述)是一个NewSQL数据库,已成功部署在IBM SoftLayer Cloud中,并已进行了各种小型测试。 其他流行的NewSQL数据库(例如Clustrix和NuoDB)正在Swift获得市场份额。 它们通过云环境方便地托管和作为服务交付。
数据库即服务(DBaaS)
预计当今的应用程序将管理各种结构化和非结构化数据,这些数据可通过大量的用户,设备,业务位置,甚至传感器,车辆和支持Internet的商品的网络来访问。 从创业公司到三星,Hothead Games和Fidelity Investments之类的大型用户的各种规模的公司都使用Cloudant管理电子商务,在线教育,游戏,金融服务和电子商务中大型或快速增长的Web和移动应用程序的数据。其他行业。
IBM Cloudant最适合需要数据库来处理大量并发的低延迟读写操作的应用程序。 其数据复制和同步技术还可以实现连续的数据可用性,以及移动或远程用户的脱机应用程序使用。 在大型组织中,为新的开发项目配置DBMS实例可能要花费几周的时间,这限制了创新和敏捷性。 DBaaS支持即时配置数据层,因此您可以随时开始新的开发。
与自己动手(DIY)数据库不同,诸如Cloudant之类的DBaaS解决方案提供并保证了特定级别的数据层性能和正常运行时间。 这消除了您和您的项目服务交付失败的风险。 Cloudant数据库即服务(DBaaS)是第一个利用云的可用性,弹性和覆盖范围来创建全球数据传输网络(DDN)的数据管理平台,该网络使应用程序可以扩展规模并保持对用户的可用性,无论他们在何处是。
IBM SoftLayer Cloud中的数据仓库即服务(DWaaS)
IBM dashDB是云中的一种完全托管的数据仓库服务,可让您轻松掌握分析能力。 IBM dashDB使您可以在业务需要时摆脱基础架构的束缚。 IBM dashDB可以帮助将现有基础架构扩展到云中,或者帮助您启动新的数据仓库自助服务功能。 它由高性能的内存和数据库技术支持,可提供您认为最快的答案。 IBM dashDB为任何规模的组织都提供了云计算的灵活性和敏捷性,从而简化了设备。 它旨在满足您对企业安全性的期望,并且您无需大量的前期基础架构投资即可立即访问关键的业务见解。 您可以在几分钟内加载,分析和可视化数据。 使用IBM dashDB,提供数据仓库即服务的日子已经到来。
SoftLayer Cloud中的IBM Watson Analytics
IBM Watson Analytics是一项认知服务,可提供自然语言处理功能并为企业提供对预测和视觉分析工具的即时访问。 它使任何人都可以轻松获取和使用高级预测性分析。 Watson Analytics提供自助服务分析,包括访问易于使用的数据优化和数据仓库服务。 These make it easier for business users to acquire and prepare data, beyond simple spreadsheets for analysis and visualization.
IBM Watson Analytics automates steps such as data preparation, predictive analysis, and visual storytelling for business professionals across data-intensive disciplines like marketing, sales, operations, finance, and human resources. IBM SoftLayer is integrating the latest IBM Power Systems into its cloud infrastructure in order to fulfill the infrastructural needs for cost-effective high-performance computing. The IBM Watson system will run efficiently on IBM Power Systems. Soon, Watson Analytics will be available as a service in the IBM SoftLayer Cloud.
Containerized analytics as a service in IBM SoftLayer Cloud
The concept of containerization for bundling and deploying mission-critical applications is attracting the attention of developers and administrators alike. Bundling every kind of software module along with its binary files, libraries, configuration details, and other dependencies together into a single package is one way to ensure faster and more error-free deployment and delivery of software workloads. This pragmatic idea has spread, and today all kinds of mobile, cloud, social, embedded, middleware, database, enterprise, and IoT applications are methodically being containerized.
Sandboxing, a subtle and smart isolation technique, eliminates the restricting dependencies on underlying operating systems. Such comprehensive and compact sandboxed and contained applications are a worthy solution for achieving portability, extensibility, maneuverability, sustainability, and security needs.
As Docker technology has matured, a new paradigm of "containers as a service (CaaS)" has emerged. Containers are being readied, hosted, and delivered as a service over the public web. All the necessary procedures to deliver application-aware containers as a service are being configured on containers to make them ready for the forthcoming service era. That is to say, knowledge-filled, service-oriented, cloud-based, composable, and cognitive containers are being offered as the principal ingredients for the establishment and sustenance of the Smarter Planet vision. Applications are containerized and exposed as services to be discovered and used by a variety of consumers for a growing set of use cases. Big and fast data analytics via Hadoop and Apache Storm, Spark, and so on, are quickly maturing and stabilizing. Virtual machines (VMs) are widely being used to enable Hadoop as a service. In short, containers are destined for cloud environments.
The integration of Hadoop YARN with Docker will allow multiple clusters to use the same hardware resources. We have made YARN containers through the Dockerization steps and hosted the YARN containers in IBM SoftLayer Cloud. We have created an example to show how containerized big data workloads and analytical platforms ensure higher efficiency. The new offering of containerized analytics as a service with the IBM SoftLayer Cloud seems imminent.
结论
Data has become a strategic asset for any organization, and it is important that every organization carefully plan ahead before proceeding with its data strategy. To enjoy continued success, data-driven enterprises will need to overcome all kinds of unexpected business challenges and changes.
To extract actionable insights, each enterprise must systematically subject all of the data that it has gleaned from different and distributed sources to a series of IT-enabled deep analytics processes with the help of end-to-end platforms.
In this article, we have explained how IBM SoftLayer can help you squeeze actionable insights out of your big and real-time data. By using analytics as a service in the cloud with the open, public, and cheap Internet infrastructure, you can create an optimized, organized, and very capable IT solution.
翻译自: https://www.ibm.com/developerworks/library/ba-big-data-analytics-as-a-service-trs/index.html