大数据生态中‘Hadoop’、‘Hive’、‘Spark’、‘Mapreduce’、‘HDFS’、‘Yarn’是什么关系

以上都是大数据相关的系统和技术,大数据又属于数据管理系统的范畴

数据管理系统无非就两个问题:

1.数据怎么存

2.数据怎么算

再进入信息爆炸时代后,数据的容量越来越大,导致一台服务器存不下,所以要用集群来存储、处理信息,但是管理一台服务器容易,怎么去统一管理集群的信息成了问题。所以用到了Hadoop生态来管理信息。

Hadoop生态中HDFS:处理存储,管理信息的分布式存储、提供接口,让用户感觉集群中的信息好像是存储在一台服务器上。

Hadoop生态中Mapreduce:处理计算,提供任务并行的框架,通过它的API抽象让用户把并行程序分成两个阶段,(1)map阶段:把任务分成若干份,分给集群中的服务器去完成(2)reduce阶段:等各个服务器把任务完成然后得到最终结果

Hadoop生态中Yarn:资源管理和任务调度

Hadoop生态中Hive:是为了方便用户在Mapreduce上写比较简单的SQL,免去写复杂的并行程序

spark:经常与Hadoop来对比,更精确的说是与Hadoop中的Mapreduce对比,因为spark本身也是一个计算框架。与Mapreduce不同的是,spark是基于内存计算,而Mapreduce是基于磁盘计算,所以spark的优点就是快。一般快2-3倍左右

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值