MPP和Hadoop的架构与场景分析

1、架构:
MPP:
MPP (Massively Parallel Processing)大规模并行处理,最开始的设计目的是为了消除共享资源的使用。
MPP数据库是:采用非共享架构(Shared Nothing)架构的分布式并行结构化数据库集群,跑的是sql。
MPP架构是:将单机数据库节点组成集群,每个节点拥有独立的磁盘和内存系统,通过专用网络连接彼此、协同计算,从而提供整体数据处理服务。
各节点都包含自己的存储和计算功能,可以独立执行查询的一部分。 最后,在内存里进行数据合并,并将结果返回客户端。
每台机器的资源是独立的,无共享!
在设计上,MPP架构优先考虑一致性(Consistency),其次考虑可用性(Availability),同时尽量做到分区容错性(Partition Tolerance)。
MPP技术优化点:
1、在存储上基本采用的都是列存,在巨量数据上具有更好的压缩性能。
2、在计算上选择向量化的计算引擎,并利用cpu的simd指令集加速整个计算的速度。

Hadoop:
Hadoop是将多台机器的资源共享起来,用于处理大规模数据和复杂计算问题。
SQL-on-Hadoop是:将计算任务并发分散到多个计算节点上的计算,底层处理是MR程序。
分布式架构是:各节点都拥有自己的计算能力和存储资源,能够实现场地自治(单独运行局部应用程序)。
数据在集群中全局透明共享,且各节点之间都通过局域网或广域网相连,但节点之间通信的开销较大,因此在运算时需要尽量减少数据移动。
多台机器的资源共享起来!
在设计上,分布式系统通常会优先考虑分区容错性(Partition Tolerance),其次考虑可用性(Availability),尽量做到一致性(Consistency)。

2、使用场景:
MPP:
MPP数据库适合存储高密度价值数据,并且是长期存储和多次使用,所以MPP并行数据库会花大量的精力在Load阶段,把数据处理成适合分析格式。
带来的优点就是从查询速度快,通常在秒级甚至毫秒级以内就可以返回查询结果。
适合替代现有关系数据机构下的大数据处理。
适合多维度数据自助分析、数据集市等。

Hadoop:
Hadoop分布式架构是将多台机器的资源共享起来,将计算任务并发分散到多个计算节点上计算,主要用于处理大规模数据和复杂计算问题。
适合海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。

3、优缺点:
MPP:
优点:
1、MPP架构(采用Non-Master部署,节点对等的扁平结构)将数据分散到多个节点上,每个节点拥有独立的处理能力,能够同时处理多个任务,从而大幅提高数据处理性能。
2、MPP解决了单个SQL数据库不能存放海量数据的问题。
3、MPP架构可以通过增加计算节点、CPU和存储等硬件资源来实现横向扩展。
4、MPP适合替代现有关系数据机构下的大数据处理,具有较高的效率。

缺点:
1、存储不透明:MPP架构对数据分片需要进行建模和设计,使用某种算法将数据按照某种规则分割,因此存储位置对用户来说不透明。
当进行查询时,查询任务需要在所有数据节点上进行执行,这增加了查询的延迟,对于所查询的数据节点的故障处理,也需要考虑到数据恢复的问题。
2、单节点瓶颈:当进行并行计算时,计算任务会被分发到所有节点上进行计算,单节点瓶颈会成为整个系统短板,容错性差,可能会导致整个系统的响应缓慢。
3、分布式事务:MPP架构由于节点之间分散存储,远程调用在事务处理时会有延迟,而一些事务操作需要跨越多个节点进行处理,这时分布式系统的事务处理会变得很复杂,影响系统的可扩展性。
4、集群规模:当节点数达到100左右时,MPP有些仍会遇到SQScalability的问题,速度变慢,或者不稳定。

Hadoop:
优点:
1、超大集群支撑,SQL on Hadoop是利用Hadoop平台存储数据,在其之上实现SQL查询引擎。最大的特点和Scalability非常好,可以支持超过1000个节点的集群。
2、Hadoop在处理非结构化和半结构化数据上具备优势,尤其适合海量数据批处理等应用要求。
缺点:
1、Hadoop的很多查询需要做大量的数据扫描操作,因此查询速度往往比MPP要慢,而且支持的同时并发查询数一般也比较低。

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值