链接:视频教程 密码:tcit
1.hadoop的子项目
Core:一套分布式文件系统以及支持Map-Reduce的计算框架
Avro:定义了一种用于支持大数据应用的数据格式,并为这种格式提供了不同的编程语言支持
HDFS:Hadoop分布式文件系统
Map/Reduce:是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集
Zookeeper:是高可用的和可靠的分布式协同系统
Pig:建立于Hadoop Core之上为并行计算环境提供了一套数据工作流语言和执行框架
Hive:是为提供简单的数据操作而设计的下一代分布式的数据仓库。它提供了简单的类似sql的语法的HiveQl语言进行数据查询
Hbase:建立于Hadoop Core之上提供一个可扩展的数据库系统
Flume:一个分布式、可靠、和高可用的海量日志聚合的系统、支持在系统中定制各类数据发送方,用于收集数据
Mahout:是一套具有可扩充能力的机器学习类库
Sqoop:是Apache下用于RDBMS和HDFS相互导数据的工具