2019年国内Hadoop大数据平台专业的计算引擎:MapReduce+Tez+Spark,数道云

Hadoop大数据平台是如何发展起来的?带来何种价值?小编具体解析Hadoop大数据平台的计算引擎:

Hadoop大数据从产生、发展到现在,已经有十多年了,它改变着时代,改变着互联网政企、对数据的存储、处理、计算和分析的过程,加速了大数据的发展,并受到非常广泛的应用。

MapReduce:Hadoop框架最早也是使用最为广泛的分布式离线的计算引擎,将一个算法抽象成Map和Reduce两个阶段进行处理,非常适合数据密集型计算适合用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性的返回它所完成的工作和最新的状态,

Tez:运行在YARN之上支持DAG作业的计算框架,对MapReduce数据处理的归纳。Apache最新的支持DAG(无回路有向图(Directed Acyclic Graph))作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。和MapReduce相比,Tez能提升Hive,Pig等分布式引擎的性能几倍到几十倍。Hortonworks是Tez最大的设计,实现和支持厂商,

Spark:是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。中间数据放到内存中,且采用DAG调度,对于迭代运算效率更高(Spark更适合于迭代运算比较多的ML和DM运算。Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小。

波若Hadoop大数据平台支持的数据批处理引擎有MapReduce、Tez和Spark,而对于实时的流式计算框架支持storm和spark streaming。根据不同的数据处理组件,选择的数据处理引擎也会有所差异。同时Hadoop大数据平台实现对数据存储管理、计算资源管理、数据可视化等等操作。

转载于:https://blog.51cto.com/14191705/2399674

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值