1、官网的文档
无论是学习Hadoop的hdfs、hive,还是hbase等,都要非常看重官网的文档。
大数据的很多框架,都是Apache的顶级项目,各个组件框架的官网链接都可以从下面的链接进入:
Hadoop:
http://hadoop.apache.org/
- Avro™: 序列化系统
- HBase™: 分布式数据库
- Hive™: 数据仓库
- Mahout™: 机器学习与数据挖掘库
- Pig™: 并行计算的高级数据流语言和执行框架.
- Spark™: 快速和通用计算的Hadoop数据引擎。提供了一个简单而富有表现力的编程模型,支持多种应用,包括ETL、机器学习、数据流处理、图形计算.
- ZooKeeper™: 分布式应用的高性能协调服务。
更多组件框架,不详。