Pangool:行走在mapreduce之上

  Tuple mapreduce:这篇文章:Tuple MapReduce: beyond classic MapReduce 介绍了Pangool的主体思想,利用tuple,在经典mapreduce上提供更易用的API。

  特性:

  1. 支持三元组而不是key-value(直观上三元组的确能对group、sort、join等操作有更好的支持)
  2. 简单的二次排序方式
  3. 内建的reduce端连接
  4. 保持性能的同时提高灵活性(保持性能是相对pig、hive等来说的,灵活性是相对hadoop的mapreduce API来说的)。
  5. 对thrift和ProtoStuff的内建支持                 #这个比较有兴趣
  6. 支持multipleInputs和multipleOutputs #这个好像也不算什么特性
  7. 100%兼容hadoop, 1.0, 0.20.X and CDH3.

  总体来说,我觉得主要的特点就是,提供了方便易用的join、sort、group等操作的接口,同时内建了thrift和protocol,在保持性能的同时,提供灵活的api。


  由于某些原因,自己用java写mapreduce比用pig之类的更多些,有些东西用pig还真不知道怎么实现,但天天写join、group等操作还是很恶心的,所以觉得这个工具不错。

pig和hive的执行速度不怎么样,如果要快可能还需要自己去优化,偶尔会听到有人抱怨pig的速度太慢,但他们又不愿意写mapreduce,pangool算是在灵活性和性能上做一个平衡吧。

内建thrift和protoStuff对我很吸引,深受其苦就是。


说一下编译Pangool源码:

    环境:

                1、hadoop,执行test的时候就需要

                2、git

                3、maven (我使用的是maven3)


首先获取源码:

            git clone git@github.com:datasalt/pangool.git

install:

            mvn clean install 


注:test case需要hadoop 环境,否则无法通过执行。



  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值