spark 不同模式用途_Spark四大特征分析介绍

Spark是一种基于内存的、分布式的、大数据处理框架,在 Hadoop 的强势之下,Spark凭借着快速、简洁易用、通用性以及支持多种运行模式四大特征,冲破固有思路成为很多企业标准的大数据分析框架。

1 快速

面向磁盘的MapReduce受限于磁盘读/写性能和网络I/O性能的约束,在处理迭代计算、实时计算、交互式数据查询等方面并不高效,但是这些却在图计算、数据挖掘和机器学习等相关应用领域中非常常见。针对这一不足,将数据存储在内存中并基于内存进行计算是一个有效的解决途径。

Spark是面向内存的大数据处理引擎,这使得Spark能够为多个不同数据源的数据提供近乎实时的处理性能,适用于需要多次操作特定数据集的应用场景。

在相同的实验环境下处理相同的数据,若在内存中运行,那么Spark要比MapReduce快100倍,如图1所示;在磁盘中运行时Spark要比MapReduce快10倍,如图2所示。综合各种实验表明,处理迭代计算问题Spark要比MapReduce快20多倍,计算数据分析类报表的速度可提高40多倍,能够在5~7秒的延时内交互式扫描1TB数据集。

图1 基于内存Spark与MapReduce执行逻辑回归的性能对比

排序问题是最考验系统性能的问题之一。图2是Spark与MapReduce对相同的100TB数据样本排序的性能对比。在实验中,MapReduce用了2100台节点,用时72分钟;而Spark仅用207台节点,是前者的1/10,用时23分钟,是前者的1/3。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值