数字化来了,该如何选择大数据存储?主流架构MPP与Hadoop的对比

 

关注:工众号;数元斋

    随着云计算、大数据产业的不断发展,传统使用单机数据库进行数据存储的模式已经不能满足业界日益增长需求,海量数据处理成为一个关键问题。目前主流的海量数据处理架构分为两种:1基于传统数据库及数据仓库所衍生出的MPP(Massively Parallel Processing)架构;2 基于Hadoop 并行计算框架的分布式架构。

    传统关系型数据库随着数据量增长性能急剧下降,业界提出一种横向扩展(scale out)方式,通过增加节点使用更多廉价的机器构建更强的集群系统。

   在这种背景下,分布式数据库和数据仓库越来越受到重视,其中基于MPP架构的数据库是主流解决方案,越来越多的厂商选择使用它改造和升级原有软件系统。Hadoop是一种分布式数据处理框架,使用普通 X86 计算机组成分布式系统处理海量数据及进行大数据分析。Hadoop 架构近年伴随着云计算而兴,其生态系统和大数据紧密联系在一起,不仅仅因为它是开源系统,更主要的是它形成了一个完整的技术生态圈。

   混合架构则综合了MPP 架构和 Hadoop 架构各自特点,通过混合部署将各自的优点充分发挥出来。将 Hadoop 生态系统与 ETL、Spark 处理引擎一起使用, 结合基于MPP 的海量并行处理数据库(MPP)实现银行综合风险管理系统,具有更好的性能;基于 MPP- Hadoop 混合框架构建一套融合多种不同结构数据的数据集成系统 ,提升了数据查询和加载效率。同时,混合架构 案例近年得到长足发展。

   本文对 MPP 和 Hadoop 两种架构进行深入分析,并对 比各自优缺点以及适用范围,给出不同类型应用的技术架 构选型推荐方案。

1 基于 MPP 的数据处理架构

    MPP 指处于不同部分的多个处理器对程序进行协同处理的过程,每个处理器使用自己的操作系统、内存、总线 和磁盘等,如图 1 所示。通常 MPP 处理器使用某些消息传 递接口进行通信。在某些实现中,同一应用程序最多可以 使用 200 个或更多处理器,这种结构最大的特点在于共享资源。

MPP 数据库(MPP DB)基于MPP架构,通过并行化各种操作提高性能,如加载数据、构建索引以及使用并行的 多个 CPU 和磁盘等。

     MPP 数据库通常具有无共享架构,因为每个系统都有自己的CPU、内存和磁盘。通过数据库软件和高速互连,系统可以整体运行,并且可通过添加新服务器对集群进行扩展。MPP 数据库通常比托管在大型多处理器服务器上

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

少晗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值