上图为学习视频中一张Hadoop生态圈截图
HDFS:分布式文件系统,底层数据存储
Hbase:分布式列式数据库,适用实时数据分析,属于NoSql数据库
Hive:数据库仓库工具,适用于离线数据分析,可以用于计算趋势或网站日志
Pig:数据流语言,用于简化Hadoop任务,对MapReduce进行更高层次的封装,执行效率快,适用于实时分析
Sqoop:用于传统数据库与HBase数据转移存储,即利用Sqoop可以将传统数据库上的数据转移到Hbase上,反之亦可。
Mahout:方便机器学习,数据挖掘,提供很多可扩展算法
Yarn:协调资源分配
Flume:可以进行海量数据日志采集,聚合、传输系统
注:此文章为读书与网络视频得出,入门小白没有深刻理解,只是一些概念
笔记类
以下为个人理解时用到的博客
Hadoop相关理解