什么是Hadoo?
一个分布式系统基础架构,用户可以在不了解分布式底层细节的帆帆发,开发分布式程序,充分利用集群的硬件资源。
官网:
http://${project-name}.apache.org
http://hadoop.apache.org
模块:
hadoop common :提供其他包辅助功能
hadoop distrbuted file system:存储
hadoop yarn:硬件资源管理和作业调度
hadoop mapreduce:计算引擎
狭义hadoop: hdfs+mapreduce+yarn
广义hadoop:生态系统,hadoop只是其中最重要和最基础的部分,生态系统中每一个子系统只能解决某一特定领域的问题。
为什么选择hadoop?
源码开源
社区活跃,便于提问与解决
涉及分布式存储计算的方方面面:
flume采集
Spark/MR/Hive进行数据存储
HDFS/hBASE存储
已经的到企业界的验证