什么是hadoop
开源的
可靠的
可扩展的
分布式计算
可解决的问题
海量数据存储 —— HDFS(分布式文件系统)
存海量数据
动态的添加机器,也可减少机器
备份,默认备份三份
快速自动恢复,当数据文件损坏时
海量数据分析 —— mapreduce
海量
核心理念-- 分而治之
对集群资源的管理和任务调度 —— yarn
资源管理(CPU、内存)
任务调度
特点
扩容能力
成本低(普通机器)
高效率
可靠性(实时保证数据完整性,实时备份)
背景
谷歌三大论文
GFS --HDFS
mapreduce
bigtable --HBASE
应用场景
日志分析
推荐系统
Hadoop的生态圈
HDFS分布式文件系统,生态圈的基础,保证数据正确存储
MapReduce分布式计算框架
Hbase实时分布式数据库,高速查询海量数据
ZooKeeper分布式协作服务,保证高可用性HA
Sqoop数据库ETL,用来互相同步关系型数据库与分布式数据库
Flume日志收集,
Hive数据仓库
Pig数据流处理
Mahout数据挖掘库
Ambari安装、部署、配置和管理工具