hadoop生态圈:
Common 一组分布式文件系统和通用i/o的组件接口(序列化,java rpc 和持久化数据结构)
Avro 一种支持高效,跨语言的RPC以及永久存储数据的序列化系统
MapReduce 分布式数据处理模型和执行环境,运行于大型商用机集群
HDFS 分布式文件系统 运行于大型商用机集群
Pig 一种数据流语言和运行环境,用以检索非常大的数据集。比如运行在MapReduce和HDFS集群上
Hive 一个分布式,按列存储数据库。Hive管理HDFS中存储的数据,并提供基于sql的查询语言(运行时引擎翻译成MapReduce作业)用以查询数据。
Hbase 一个分布式,按列存储数据库。Hbase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)
Zookeeper 一个分布式、可用性高的协调服务。Zookeeper提供了分布式锁之类的基本服务用于构建分布式应用
Sqoop 在数据库和HDFS之间高效传输数据的工具
-----------------------------------------------------------------
hadoop 2.0.3 和网上介绍的版本有点不一样
它的config文件是在etx里面。startall 是在sbin里面