高性能计算系统——大数据与快速数据分析对高性能分析的需求

大数据与快速数据分析对高性能分析的需求

智能家居的设备的产生必然使下一代家居服务概念化,社交网站和知识社区的日益普及,科学实验和技术计算的激增,高度可编程以及软件定义IT基础设施(服务器、存储装置、网络解决方案的涌现等都极大促进了可用数据的指数级增长)。

大数据分析范型

大数据分析的成熟度、稳定性、战略符合程度需要进行彻底调查,从而才能够在开始阶段就完全确定和清晰表达各种可见和隐藏的风险(可行性、财务影响、技术成熟和稳定程度、资源可用性)。实时分析是当前热门的需求,很多人努力实现这一关键需求。

描述大数据

随着产品供应商、服务组织、独立软件供应商、系统集成商、创新者和研究机构之间更深入的协作,这种范型正在逐步的确认。创建、持续并维持简化技术、平台和基础设施、集成流程、最佳实践、设计模式、关键指标,目的是使得这一新的学科更具有渗透力和说服力。大数据的含义是广泛的,主要的活动是对大数据进行基于工具和数学的分析,从而获得更大的洞见。分析学是IT中的独立学科,研究数据收集、过滤、清理、转换、存储、表示、处理、挖掘和分析的方法,目的是提取可用的情报。。

大数据特性

大数据的一般特性

  • 数据存储的容量定义为PB级、EB级等。超过当前存储限制(GB、TB)
  • 大数据可以有多种结构(结构化、非结构化、半结构化)
  • 大数据有多种类型的数据来源(传感器、计算机、移动电话、社交网络)和资源
  • 数据收集、获取、处理、挖掘的速度跨越两个极端,即在实时到面向批处理的变化

高性能分析

有多种的分布式处理机制

  • in-memory分析将分析过程划分为易于管理的片段,将计算并行分布到一组专用的机器中。
  • in-database处理是用大规模并行处理(MPP)数据库结构来更快执行关键数据管理分析开发及部署任务。相关任务被移动到更接近数据集的位置,而且计算会运行在数据库中,从而避免耗时的数据移动和转移。
  • 网格计算:创建一个受控的,共享的来使用动态的、基于资源的负载均衡快速处理大量数据和分析程序。可以将任务进行分割,然后将分割后的任务运行在使用共享物理存储的多个对称多处理(SMP)机上。集中管理使得你可以在执行的一组约束下监视和管理多个用户及应用程序。

大数据和快速数据的含义

大数据的主要影响包括:

  • 数据管理(端到端的数据生命周期)基础设施
  • 数据分析平台
  • 构建下一代洞见驱动的应用程序。

大数据基础设施

从数据获取到清理数据从而快速容易地提取可用洞见,要求大量的统一的IT基础设施和无缝同步的平台。最近出现了存储设备、网络连接方案、裸机服务器、虚拟机(VM)、Docker容器等用于受Hadoop启发的大数据分析。

大数据平台

在平台方面,最合理的场景是采取集成的平台进行数据采集、分析、知识发现和可视化。可以使用连接器、驱动器、适配器来从不同的数据来源获得数据,例如文件、数据库、设备、传感器、操作系统、社交网站等。Hadoop平台主要支持粗粒度数据查询和检索。Hadoop将多结构数据转化为结构化数据,从而使得商业智能(BI)平台能够有效地处理格式化和规范化后的数据。Hadoop用来删除各种类型冗余和重复数据,这样总数据规模就会急剧下降。MapReduce是主要的数据处理框架。任意编程语言和脚本语言都可用于编写MapReduce应用程序。Hadoop分布式文件系统(HDFS)是朱啊哟数据存储框架。即便是传统的数据库管理系统也正在相应的更新,目的是高效的应对数据分析带来的挑战。产生了并行、分析、集群、分布式数据库管理系统来迎合(BDA)。还出现了中间件解决方案,形式包括数据hub、消息总线和网络架构、代理等。目的是将粗糙的边界抚平。

还有集成的解决方案,Datameer(http://www.datameer.com/)就是这样的平台,被用来简化大数据平台分析任务。

大数据应用程序

BDA正在快速成为学术机构和IT组织的研究实验室的等学习和研究的一个重要学习。随着软件定义的基础设施(SDI)和基于云的平台稳定分析即服务(Analytics as a Service,AaaS)。

用于精确、预测性、规范性洞见的新兴数据源

数据爆炸的关键驱动是因为采用了下面列出的技术

  • 由于通过先进技术实现数字化,感知和智能物体的数量多达数以万计。
  • 由于IT消费化,智能手机和可穿戴设备多达数十亿。
  • 设备和服务生态系统的空前增长。
  • 运营系统、事务系统、实时系统、交互系统的指数级增长。
  • 通过更加深入、极致网络和通信互连的设备和系统多达数十亿。
  • 大规模技术计算和科学实验
  • 社交网络(web2.0)和知识社区的繁荣。
  • IT集中化、商业化、产业化(云计算)
  • 物联网(loT)、空间物理系统(CPS)、环境智能(AmI)等技术的采纳

计算变得分布而管理变得集中,通信变为自治的,统一的,感知变得无处不在。具有感知能力的物体遍布各处。视觉、感知、决策支持、驱动是普适的。知识捕捉和利用强制在系统和服务中实现等。用于设备、应用继承的标准兼容服务支持和用于远程发现、访问、诊断、可修复性、可管理性、可维持性的编程基础设施。
在这里插入图片描述

各种各样的通用或专用的网络(BCN、CAN、LAN、PAN等)将会产生大量的有用信息。
在这里插入图片描述

此外、各种电子交易和交互都会产生大量的数据。
在这里插入图片描述

其他导致大数据的主要进程如下

  • 设备到设备(D2D)集成
  • 设备到企业(D2E)集成
  • 设备到云(D2C)集成:随着多数企业系统移动到云,设备到云(D2C):随着多数企业系统移动到云,设备到云(D2C)互联网变得更加重要
  • 云到云(C2C)集成:不同的、分布式的、去中心的云逐渐连接起来,以便提供更好的服务。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qsWkCPec-1570284078666)(assets/1570192439718.png)]

新兴的物联网的参考架构
在这里插入图片描述

大数据分析

特定的及通用的分析学科

类型类型
实时分析社交媒体分析
预测性分析运营分析
规范性分析机器分析
高性能分析零售与安全分析
诊断分析情感分析
流分析环境感知分析

大数据分析的主要应用领域

在这里插入图片描述

处理运转中、使用中和持久的数据

受分析影响的主要领域
在这里插入图片描述

新一代的数据分析

大数据分析技术架构

在这里插入图片描述

大数据分析的宏观架构

与平台相关的高度优化的基础设施是从大数据领域中不断获得预期成功的主要支柱。除了数据虚拟化、提取、预处理和分析平台外,还有中间件、代理器、连接器、驱动器、适配器解决方案以及不同的数据管理平台集合。可视化工具对于及时向正确的用户和系统传递消息是非常必要的。还有消息队列和代理用来接收数据和文档消息。

混合架构

随着新类型的数据以及来源不断的涌现,大数据仍然在不断的增长。混合架构代表了两种不同架构模式和谐共存,对于数据采集、有标准的的以及具体的、第三方的、专门的连接器。

机器数据分析

在一些数据中心中,大量企业级运营和分析系统,数据管理系统,成套的、自产的总控系统,以及集成引擎。在云技术的采用,这些传统的数据中心正在逐渐成为强大的私有云环境。
在这里插入图片描述

基于云的大数据分析

用于大数据集分析的公有云

云计算的最大潜力是对已经存在于云中心的数据的可负担的,熟练的处理。云作为IT的基础设施(服务器、存储、网络)、商业基础设施、管理软件解决方案和应用的融合高度优化且自动、专用和共享、虚拟化、软件定义的环境,其地位正在快速巩固。跨国组织的数量正在稳步的增长,对于IT的直接影响就是多样性,分布式的应用程序和数据源位于多个环境中,包括私有云、公有云、混合云。考虑到安全性需要,客户、机密、公司信息主要保存在私有云中,为了满足需求,所有企业级业务应用(ERP、SCM、CRM、KM、CM等)放置在私有云中。

WAN优化技术正在快速成熟,目的在地理分布的云的系统之间传递大量数据时大幅减少网络的延迟。联合、开放、互联、互操作的云模式正在快速的关注。

混合云

各种软件系统正在逐步现代化,并被移动到云环境中,尤其是公有云,这样就能够作为公网上的服务来进行订阅和使用。

企业分析

多数企业已经在大量企业级存储中积累了很多的数据,企业需要从数据中创建智能并收集大的洞见和价值,从而指定策略和有价值的技术。

通常企业分析部分的需求包括:

  • 工作负载管理和优先级管理
  • 管理整个IT环境
  • 对所有业务处理进行性能优化。

社交媒体分析SMA

社交数据的规模正在快速增长,如果能够适当进行各种特定探测,不断增加的社交数据能够产生多种价值增值。加速决策的过程。

大数据分析的主要步骤

有一些新兴的数据源坚持要求自动数据采集、清理、修正、格式化、过滤等。预处理动作需要同步执行,而且随着数据复杂性的增加。需要具备高度胜任的平台和工具集,再加上适配器、连接器、驱动器、才能够加速预处理功能。Hadoop平台被视为最有前途的平台。

数据采集

数据被采集并上传到基于云的数据服务中。例如Datameer这个端到端的大数据平台,它忽略了ETL和静态模式的限制,使得业务用户能够用于所有常见的结构和非结构化的数据源。Datameer将所有的数据以原始格式直接加载到Hadoop中,通过健壮的采样、解析、调度和数据保持工具,处理过程得到了优化和支持,使得任何用户能够快速、高效地获得他们需要的数据。

Treasure Data Serive(另一个大数据平台服务供应商)使用并行批量数据导入工具或运行在客户本地系统中的实时数据收集代理。批量数据导入工具通常用于从关系型数据库、平面文件(Excel、逗号分隔文件)、应用系统(ERP、CRM等)导入数据。数据的收集代理被设计为实时从web和应用程序日志、传感器、移动系统等捕获数据。数据收集代理在数据转送到云服务之前进行过滤、转换、聚集。所有的数据会被转换为MessagePack的二进制格式。代理技术被设为轻量级、可扩展、可靠的。还有使用并行化、缓冲、压缩机制来使用性能达到最高、减少网络流量,确保在数据传输中不重不漏。

数据存储

大数据存储可以使用SQL、NoSQL和NewSQL数据库。架构师需要选择适当的数据库管理系统。Treasure Data service在Plazma中保存数据。它是可扩展、安全、基于云的、列式数据库。Plazma为时序数据进行了优化。

实时分析

通常大量结构化和半结构化数据保存在Hadoop中(数量+多样性)。另一方面,流数据用于快速数据需求(速度+多样性)。两者相辅相成。
在这里插入图片描述

Hadoop是大数据时代的典型的批处理解决方案,数据被收集和保存到商用服务器和磁盘中,进而采用许多不同的处理技术在预定的时间内获得洞见。

实时数据或快速数据、事件数据、连续数据、流数据要求实时分析能力,运营数据是一种实时数据,用于产生运营智能。不仅IT基础设施平台、定制的、自产的、成套的业务应用程序也能产生大量的运行数据,包括日志文件、配置文件、策略文件等。

实时分析的主要用例:

  • 入侵、监视、欺诈检测
  • 实时安全性和监视
  • 算法交易
  • 医疗、运动分析等
  • 对生产、运营、交易系统的监视、度量和管理
  • 供应链优化与智能电网
  • 智能环境:智能汽车、智能家居、智能医院、智能旅馆等。
  • 车辆和野生动物的追踪。
  • 环境、状况感知。

实时分析平台

在这里插入图片描述
Apache Drill 是用于Hadoop和NoSQL的开源、低延迟SQL查询引擎。Apache Drill 的目的是自底向上地在规模快速增加的多结构化数据集上提供低延迟查询。

VoltBD和MemSQL是市场上获得足够关注的两种著名的in-memory数据库。
在这里插入图片描述

MemSQL DB的参考架构

主要的区别就是

  • 加速应用程序并增加实时运营分析
  • 基于商用硬件灵活扩展、最大化性能及ROI
  • 同时分析实时和历史数据
  • 将关系型数据和JSON数据合并。

流分析

Storm和Spark用于加速流分析的处理。

主要的应用:

  • 业务流程管理与自动化(过程监视,BAM、异常报告、商业智能)
  • 金融(算法交易、欺诈检测、风险管理)
  • 网络与应用监视(入侵检测、SLA监视)
  • 传感器网路应用(RFID读取、生产线调度与控制、空中交通)

结论

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值