hadoop是什么?
一个大数据处理框架,分布式计算平台
Hadoop最核心的设计是什么?
- HDFS(Hadoop DFS,分布式文件系统):提供了海量数据的存储
- mapReduce(分布式计算框架):提供了对数据的计算
再详细点:
- HDFS是Hadoop分布式文件系统,具有高容错性、高伸缩性,允许用户基于廉价硬件部署,构建分布式存储系统,为分布式计算存储提供了底层支持
- MapReduce提供简单的API,允许用户在不了解底层细节的情况下,开发分布式并行程序,利用大规模集群资源,解决传统单机无法解决的大数据处理问题
名词解释
- Hive:一个分布式、按列存储的数据仓库
- spark:也是一个大数据框架(重点用于计算),拥有Hadoop MapReduce所具有的优点,Spark在Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark性能以及运算速度高于MapReduce。
spark和hadoop的关系
我的理解是spark可以代替hadoop中的mapreduce,进行更快的计算。
spark为什么比mapReduce快?
https://zhuanlan.zhihu.com/p/70455833
spark与hadoop的联系
Hadoop提供分布式数据存储功能HDFS,还提供了用于数据处理的MapReduce。 MapReduce是可以不依靠spark数据的处理的。当然spark也可以不依靠HDFS进行运作,它可以依靠其它的分布式文件系统。但是两者完全可以结合在一起,hadoop提供分布式 集群和分布式 文件系统,spark可以依附在hadoop的HDFS代替MapReduce弥补MapReduce计算能力不足的问题。
spark在hadoop肩膀上可以让大数据跑的更快
MapReduce是什么?
一种编程模型,安装hadoop之后可以在java中编写map和reduce思想的程序。