1.什么是hadoop
hadoop是一个可靠(reliable)的、可扩展(scalable)的分布式(distributed)的开源计算框架!
Apache hadoop 允许分布式处理的一个软件,并且跨越在集群的机器上(意思是数据分开存储在各个节点之上的),并且使用一种简单的编程模型。可以从单个数据信号扩展到成百上千台机器上。
2.hadoop主要包含了哪些模块
hadoop common(通用包):提供了一些工具类(支持hadoop其他框架)
HDFS(hadoop distributed file system分布式文件系统):负责数据的存储
hadoop yarn:提供作业的调度和集群资源的管理
MapReduce:基于yarn的能够并行计算大数据集处理的一个框架
3.hadoop能做什么
能够搭建大型的数据仓库,pb级别的数据存储、处理、分析和统计等业务(如搜索引擎、日志分析、商业智能、数据挖掘)。