高性能计算系统——发展趋势

最新推荐文章于 2024-01-02 01:21:20 发布

绝尘花遗落

最新推荐文章于 2024-01-02 01:21:20 发布

阅读量2.6k

点赞数 1

分类专栏：异构计算文章标签：高性能计算 hadoop hive

本文链接：https://blog.csdn.net/huayunhualuo/article/details/101715805

版权

异构计算专栏收录该内容

31 篇文章 15 订阅

订阅专栏

发展趋势

IT趋势

IT消费化

人们能够在任意时间、任意地点、任意设备、任意网络以及任意媒体访问并使用远程拥有的IT资源，业务应用和数据。随着==自带设备（Bring Your Own Device，BYOD）==称为普遍要求，需要能够提供健壮、灵活的移动设备管理软件解决方案，在大量垂直业务市场中下一代移动应用及服务的出现，在快速变动的移动空间中，有着大量的移动应用程序、地图、服务开发/交付平台、编程及标记语言、架构与框架、容器、工具、操作系统等。

IT商品化

代表性是有嵌入式智能正有意识地从硬件封装即装置中抽离出来，从而使得硬件模块能够被大量批次地生产并且可以方便快捷的使用。

随着IT基础设置的巩固、集中化和商品化，对商品化硬件的需求激增。IT行业又重新聚焦于各类IT基础设施（服务器、存储设备、网络解决方案等）的商品化。

设备时代

IT设备是完全定制化的，而且在工厂内就完成了配置，这样当用户使用他们的时候，只需要几分钟或几小时就可以发挥他们的作用。在IT融合解决方案中，FlexPod和VCE。专业的集成系统，IBM的PureFlex拒绝、PureApplication系统以及PureData系统，此外还有Oracle公司的工程系统，如Oracle Exadata Database Machine 以及Exalogic Elastic Cloud。

基础设施优化及弹性

由于传统基础设施的封闭性、僵化性和整体性，很多人在致力于将传统基础设施改造成模块化、开放性、可扩展、聚合、可编程的基础设施。另一方面昂贵的IT基础设施（服务器、存储、网络解决方案）的低利用率。很多IT基础设施利用率不高，有的甚至长时间不被利用。目的就是增加利用率以及优化基础设施。

随着大数据分析平台以及应用程序的快速普及，商业硬件正在快速、廉价是完成数据密集和处理处理密集型的大数据分析。解决方法就是将各类利用率低的服务器收集在一起并构建集群，从而形成动态的、巨大的服务器池，以有效的满足与日剧增的、间歇性的计算能力的要求。云能够优雅其经济地满足上述需求的新一代基础设施。在软件工程中的分而治之技术正在稳步的渗透到硬件工程中。云计算的本质就是将多台服务器分解成大量可管理的虚拟机的集合，然后根据需要来组织这些虚拟机。

设备生态系统

随着MEMS、纳米技术、SoC等小型化技术发展，设备的功能以及智能化程序增在不断提高，设备系统是可操控的（instrumented）、互连的（interconnected）、智能的（intelligent）。机器间（Machine-to-Machine,M2M）通信使得机器、仪器、设备都具有自我意识，并且能够感知周围环境。

在数据生成方面，机器生成的数据在数据量方面远远超过人所生成的数据，数据的增长同设备总数量之间成正比关系清晰的证明了这一点。随着RESTful服务范型的迅速普及、所有设备都将支持服务。每一个有形的元素都将支持服务，从而共享其独立的功能，并且以编程的方式利用其它元素的功能。

极致的连通性

各种各样的网络拓扑不断扩张，使得位于他们当中的参与制和组成要素具有极高的生产率。目前有多种网络、连接解决方案，他们以负载均衡器、交换机、路由器、网关、代理服务器、防火墙等形式存在，目的是提供更高的性能，这些网络解决方案以设备模块嵌入。

不同种类的设备之间基于互联的交互预示着人们将得到一连串的灵活、聪明、成熟的软件。软件定义网络（SDN）是最新的技术趋势。

服务支持的特点

大部分新一代企业级规模、关键任务、以处理为中心、多用途应用都是通过多个分离且复杂的服务组装出来的。

主流的理念是物理环境中的任务支持服务都能够同临近的，远程的设备和应用进行交互操作。可以对服务进行抽象，通过对服务接口仅暴露设备的特定能力，服务的实现对用户代理隐藏。这种类型的智能分类使得请求设备仅能够到目标设备的功能，然后连接、访问、利用这些功能来实现业务或人员服务。对服务的支持完全消除了所有的依赖性和不足，因此设备之间可以完美、灵活地交互。

物联网/万物互联

随着无线及有线设备的普及以及适用性的增强、互联网的范围、规模、结构变成了现有的样子，使得设备网络（Internet of Device，IoD）这一概念称为主流。服务互联网（Internet of Service，IoS）的理念快速传播开来。

互联网领域可能的成果是大量的智能环境。信息物理系统（CPS）、环境智能（AmI）和普适计算（UC）是包含物联网理想的一些相关概念。

随着微服务包罗万象，以及容器作为微服务的最佳运行时的环境的出现，服务的制作、运送、部署、交付、管理、编排和增强等活动都将大幅简化。

对社交媒体网络的广泛采用

Internet不仅包含计算系统、而且还包含各种类型的设备和数字化实体，因此，internet的复杂性将会呈指数级增长。

社交媒体分析（Social Analytic，SMA）得到了急剧的发展，目的是找到适当的方式来实现品牌优化、由内而外的思考、完善产品市场的战略，对客户进行全方面观察了解，找出人们在各个社交方面的脉动。

预测性、规范性、个性化分析时代

在数据的世界，有两种截然不同的趋势：大数据（数量和多样性）以及快速数据（产生的速度和数量）。数据虚拟化、分析、可视化等科学越来越受重视，目的是简化架构数据转化为信息及知识的复杂过程。工业力量以及开源平台和基础设备正在迅猛发展，目的是支持无缝且自发的数据继承挖掘和分析。in-memory计算这一概念正在广泛的推荐和使用。

in-memory计算的突出贡献是轻松地进行快速、实时数据分析。内存的存储能力有了想的相当大的提高，而且现代存储模块也在具备更快的访问速度和更高的耐用性。在传统的数据库中，数据通过关系以及表间的连接存储在表中，对于数据吃那个框，为了应对复杂查询，创建了多维数据集。在in-memory分析的情况下，能够避免创建多维数据集的创建。直接的好处就是更快的查询和计算中，几乎避免了构建聚合以及预先计算多维数据集的需要。成功的in-memory计算有不同的实现方法，其中最突出的包括关联模型、in-memoryOLAP、Excel in-memory插件、in-memory极速器，一些产品在in-memory计算领域与HANA进行激烈的竞争，如VoltDB以及Oracle、Exalytics。

采用in-memory处理的主要优势包括：

减少昂贵的数据库设备中处理的能力
能够集成来自不同的来源的数据，并消除或减少在性能调优上任务上的花费的时间，如查询分析、多维数据集的构建和聚合表设计。
易于部署的自动分析，提供直观和无约束的数据浏览能力，针对复杂数据集的即时可视化能力。

IBM退出一种新的计算范型，即流计算目的是现场捕捉流以及事件数据，及时为高管和决策者得到可用且可复用的模式、隐藏的关联、提示、提醒、通知、即将到来的机会及威胁，从而得到计划适当的对策。

因此高度胜任的流程、产品、模式、实践和平台负责处理大量变化的数据量、种类、产生速度、真实性、多样性、粘性、以提高商业价值、产量、优化和转换。

常用的数据类型包括：

商业事务、交互、操作和分析数据
系统及应用基础设施（计算、存储、网络、应用程序、web和数据服务器等）以及日志文件
社交和人的数据
客户、产品、销售和其他商业数据
多媒体数据
计算机和传感器数据
科学实验及观察数据（基因、粒子物理、气象模型、药物研制等）

数据以不同的大小、结构、范围和速度产生，加速通往更聪明的世界的过程中，下面的步骤比较关键：

聚合各种分布式的、不同的、分散的数据。
分析格式化、规范化后的数据
表达被提取出来的可操作性的情报
基于获得的洞见采取行动并提高未来分析的标准（实时性、预测性、规范性、个性化分析）。
强调商业绩效和生产力。

情景分析

通常，机器的数据产生速度是非常快的，为了获得可行的情境信息，快速、实时的数据分析是前进的方向。另外一个趋势是所有物理实体均通过与网络应用程序及数据（信息物理系统CPS）的直接关联被增强。

用于大数据及分析的Apache Hadoop

我们周边各种各样的有形物品的更深层次的连接以及对服务的支持，使得数据驱动的洞见驱动的决策这一开创性的道路称为可能。

随着Yahoo、Google、Facebook以及其他推动web级交互，常规手机的数据的数量将会很容易就超出这些公司传统IT架构的容量，需要新的、弹性的、动态的架构。

Apache Hadoop是一个开源的分布式软件平台，用于高效存储及数据处理。Hadoop软件运行在工业标准集群以及配置直连式存储（DAS）的商用服务器上。在存储方面，Hadoop能够在数万台服务器上存储PB级数据，而且支持链接服务器节点动态的、低成本的横向扩展，从而确保大数据及快速数据分析所需的弹性。

MapReduce是简化Apache Hadoop 可扩展方面的核心模块。MapReduce在将数据（静态以及流）细分为更小的、可管理的部分方面为程序员提供了大量帮助，细分后的数据可以被独立处理。通过使用受欢迎的MapReduce框架，并行计算与高性能计算的复杂性正在大幅度减少。它负责群内通信、任务监视和调度、负载均衡、故障与失效处理等。MapReduce在最新的Hadoop版本中进行了更新，更名为YARN，具有附加的模块提供更多的自动化。

Apache Hadoop的另一个主要模块是Hadoop分布式文件系统（HDFS），该模块的主要目的确保可扩展性和容错性。HDFS通过将大文件分割为块（通常64MB或128MB）来实现对大文件的存储，并且会将在三个或更多的服务器上复制来确保高数据可用性。HDFS为MapReduce应用程序提供API，并用于并行读取数据。HDFS分配了一个单独的节点，专门用来管理数据放置并监视服务器的可用性。

在这里插入图片描述

HDFS参考架构

Apache Hadoop包括很多其他重要组件：

Ambari

它是一个基于Web的工具，为Apache Hadoop集群提供配置，管理及监视功能。集群支持Hadoop HDFS，Hadoop MapReduce、Hive、HCatalog、HBase、Zookeeper、Oozie、Pig和Sqoop。Ambari还提供了一个指示板用于查看集群健康程序。

Avro

用来将结构化数据序列化。结构化数据被转换为比特串，并以紧凑的格式高效保存在HDFS中。

cassandra

没有单点故障的可扩展多主数据库

chukwa

用于管理大型分布式系统的数据收集系统。

HBase

可扩展的分布式数据库，支持大型表的结构化数据存储

Mahout

可扩展的机器学习及数据挖掘库

Pig

用户并行计算的高级数据流语言及执行框架，它包含了一个语言，即Pig Latin，用来表示这些数据流。Pig 运行在Hadoop上，并且利用HDFS和MapReduce

Apache Flume

用于将大量数据从多个来源收集、聚合、移动到HDFS的分布式系统中。Flume特别适合将数据流导入HDFS，例如Web日志或其他日志数据。

Apache Sqoop

用于在Hadoop与传统SQL数据库之间传递数据的工具。可以使用Sqoop来将数据从MySQL或Oracle数据库中导入HDFS，然后对数据库进行MapReduce操作，再把数据导出到RDBMS中。

Apache Hive

一种简单的编程语言，用来编写MaoReduce程序。

ODBC/JDBC连接器

用于HBase和Hive的ODBC/JDBC连接器是包含在Hadoop发布发行版中的组件。

Spark

Spark是编写快速、分布式程序的框架。Spark解决的问题类似于Hadoop、MapReduce所解决问题，但它使用了更快的in-memory解决方案，而且具有更简洁的函数类型API。

JAQL

它是函数式、声明式编程语言，被设计为专用于大量结构化、半结构化、非结构化数据。JAQL的主要用途是处理用JSON文档形式保存的数据，但它可以作用于各种类型的数据上。

Tez

它是一个构建在Hadoop YARN上的数据流编程框架，提供了强大且灵活的引擎。用来运行任意的处理自动或交互用例任务的DAG

zooKeeper

分布式应用程序的高性能协作服务。

绝尘花遗落

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
高性能计算系统——发展趋势

发展趋势IT趋势IT消费化人们能够在任意时间、任意地点、任意设备、任意网络以及任意媒体访问并使用远程拥有的IT资源，业务应用和数据。随着==自带设备（Bring Your Own Device，BYOD）==称为普遍要求，需要能够提供健壮、灵活的移动设备管理软件解决方案，在大量垂直业务市场中下一代移动应用及服务的出现，在快速变动的移动空间中，有着大量的移动应用程序、地图、服务开发/交付平台、...
复制链接

扫一扫