hadoop学习

hadoop是什么?

一个大数据处理框架,分布式计算平台

Hadoop最核心的设计是什么?

  • HDFS(Hadoop DFS,分布式文件系统):提供了海量数据的存储
  • mapReduce(分布式计算框架):提供了对数据的计算

再详细点:

  • HDFS是Hadoop分布式文件系统,具有高容错性、高伸缩性,允许用户基于廉价硬件部署,构建分布式存储系统,为分布式计算存储提供了底层支持
  • MapReduce提供简单的API,允许用户在不了解底层细节的情况下,开发分布式并行程序,利用大规模集群资源,解决传统单机无法解决的大数据处理问题

名词解释

  • Hive:一个分布式、按列存储的数据仓库
  • spark:也是一个大数据框架(重点用于计算),拥有Hadoop MapReduce所具有的优点,Spark在Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark性能以及运算速度高于MapReduce。

spark和hadoop的关系

我的理解是spark可以代替hadoop中的mapreduce,进行更快的计算。

spark为什么比mapReduce快?

https://zhuanlan.zhihu.com/p/70455833

spark与hadoop的联系

Hadoop提供分布式数据存储功能HDFS,还提供了用于数据处理的MapReduce。 MapReduce是可以不依靠spark数据的处理的。当然spark也可以不依靠HDFS进行运作,它可以依靠其它的分布式文件系统。但是两者完全可以结合在一起,hadoop提供分布式 集群和分布式 文件系统,spark可以依附在hadoop的HDFS代替MapReduce弥补MapReduce计算能力不足的问题。
spark在hadoop肩膀上可以让大数据跑的更快

MapReduce是什么?

一种编程模型,安装hadoop之后可以在java中编写map和reduce思想的程序。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值