Hadoop名字由来
作者孩子的棕黄色小象的名称
Hadoop简介
开源的,分布式存储+分布式计算平台
作用
搭建大型数据仓库,PB级数据的存储,处理,分析,统计等业务
搜索引擎,日志分析,商业智能,数据挖掘
分布式文件系统HDFS
HDFS是GFS的克隆版
特点:扩展性,容错性(多副本),海量数据存储
将文件切分为指定大小的数据块并以多副本的存储在多个机器上
数据切分,多副本,容错等操作对用户是透明的
资源调度系统Yarn
负责整个集群资源的管理和调度
特点:扩展性,容错性,多框架资源统一调度
分布式计算框架MapReduce
特点:扩展性,容错性,海量数据