1、hadoop是什么
1. hadoop是apache基金会旗下的一款顶级项目
2. 用于解决大数据集的存储和计算分析
3. 是用java语言开发,具有跨平台性
4. 开源的
5. 运行在廉价机器(商用硬件,和专业硬件)上,认为机器故障时常态
6. 利用集群的cpu的并发和计算能力,性能非常高。
2、hadoop的核心模块
1. Common: hadoop框架的通用模块
2. hdfs(hadoop distributed fileSystem),hadoop分布式存储文件系统,用于存储大数据集
3. mapreduce: hadoop的分布式计算框架,提供了移动计算而非移动数据的思想,利用并发提高计算能力。
4. yarn:hadoop的作业调度与资源管理框架(cpu,磁盘,内存)
3、google的三篇论文
1.《GFS》,2003发表,阐述了大数据集如何存储的问题,引入了分布式思想(一个整体拆成多个子部分,之间提供接口进行调用)
2.《Mapreduce》,2004发表,阐述了解决分布式文件系统上的大数据集如何快速的分析和计算的问题。
3.《bigtable》,2006发表,阐述了如何解决非结构化的数据不适合存储在关系型数据库中,提供了另外一种存储思想,NoSQL(not only sql)的概念
4、Hadoop的生态系统
hadoop、spark、hbase、flink、zookeeper、 hive、sq