1、概述
现在hadoop已经法阵成为包含很多项目的集合,尽管其核心是MapReduce和HDFS分布式文件系统,但是与Hadoop相关的Common、Avro、Chukwa、Hive、HBase等项目也是不可或缺的,它们提供了互补性服务或者在核心层上提供了更高层的服务。hadoop项目结构如截图所示:
在接下来的文章将详细介绍hadoop各个关联项目的介绍
2、hadoop相关项目介绍
- Common
Common是为Hadoop其他子项目提供支持的常用工具,它主要包括FileSystem、RPC和串行化库,它们为在廉价的硬件上搭建云计算环境提供了基本的服务,并且会为运行在该平台上的软件开发提供了所需的API。
- Avro
用于数据库序列化的系统,它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能,其中代码生成器即不需要读写文件数据,也不需要使用或者实现RPC协议,它只是一个可选的对静态类型语言的实现。
Avro系统依赖于模式,数据的读和谐是在模式之下完成的,这样可以减少写入数据的开销&