1.允许简单的编程模型在大量计算机集群上对大型数据进行分布式处理
Hadoop指Apache的开源框架 核心组件有:
- HDFS(分布式文件系统):解决海量数据存储
- YARN(作业调度和集群资源管理的框架):解决资源任务调度
- MAPREDUCE(分布式运算编程框架):解决海量数据计算
2。Hadoop 发展史 创始人 Doug Cutting 起源于Nutch
发展离不开谷歌的3篇论文
3.优点:
扩容能力
成本低
高效率
可靠性
4、hadoop最受青睐的是互联网领域
Hadoop集群搭建
集群简介:
包括两个集群:HDFS集群和YARN集群
HDFS负责海量数据存储 NameNode DataNode SecondaryNameNode
YARN负责海量数据运算时的资源调度 ResourceManager NodeManeger
部署方式分为三种:
Standalone mode(独立模式)、Pseudo-Distributed mode(伪分布式)、Cluster mode(集群模式)
集群角色规划(架构)
根据集群服务器硬件设施和软件工作特性合理规划不同组件在不同的机器上避免因为使用资源相同而产生竞争抢夺的问题
原则: