1.《hadoop实战》Hadoop子项目及其结构

现在Hadoop已经发展成为包含多个子项目的集合。 虽然其核心内容是MapReduce和 Hadoop分布式文件系统(HDFS), 但Hadoop下的Common、Avro、Chukwa, Hive、HBase等子项目也是不可或缺的。 它们提供了互补性服务或在核心层上提供了更高层的服务。l ) Core/Common :从Hadoop0.20版本开始,HadoopCore项目便更各为Commo...
摘要由CSDN通过智能技术生成

现在Hadoop已经发展成为包含多个子项目的集合。 虽然其核心内容是MapReduce和 Hadoop分布式文件系统(HDFS), 但Hadoop下的Common、Avro、Chukwa, Hive、HBase等子项目也是不可或缺的。 它们提供了互补性服务或在核心层上提供了更高层的服务。

l ) Core/Common :从Hadoop0.20版本开始,HadoopCore项目便更各为Common。
Common是为Hadoop其他子项目提供支持的常用工具,它主要包括FileSystem、RPC和串
行化库,它们为在廉价的硬件上搭建云计算环境提供基本的服务,并且为运行在该运平台上 的软件开发提供了所需的API。

2)Avro: Avro是用于数据序列化的系统。它提供了丰富的数据结构类型、快速可压缩
的工进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成
功能。其中,代码生成器既不需要读写文件数据,也不需要使用或实现RPC协议,它只是一个可选的对静态类型语言的实现。
Avro系统依赖于模式(Schema),Avro数据的读和写是在模式之下完成的。这样就可以减少写入数据的开销,提高序列化的速度并缩减其大小。同时,也可以方便动态脚本语言的使用,因为数据连同其模式都是自描述的。
在RPC中,Avro系统的客户端和服务端通过握手协议进行模式的交换。因此当客户端和服务端拥有彼此全部的模式时,不同模式下的相同命名字段、丢失字段和附加字段等信息的一致性问题就得到了很好的解决。
3)MapReduce : MapReduce是一种编程模型,用于大规模数据集(大于lTB)的并行运算。“映射”(map)、“化简”(reduce

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值