Cascading——针对Hadoop MapReduce的数据处理API

Cascading是一个新式的针对Hadoop clusters的数据处理API,它使用富于表现力的API来构建复杂的处理工作流,而不是直接实现Hadoop MapReduce的算法。

该处理API使开发者可以快速装配复杂的分布式流程,而无需“考虑” MapReduce。同时还可以基于流程之间的依赖及其它元数据信息来有效地进行调度。

Cascading API的核心概念是管道和流。所谓管道,就是一系列处理步骤(解析、循环、过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收器(data-sink)的管道的联合。换句话说,流就是有数据通过的管道。再进一步,cascade就是多个流的链接、分支和分组。
该API提供了很多关键特性:

  • 基于依赖的“拓扑调度(Toplogical Scheduler)”及MapReduce规划——这是cascading API的两个关键组件,它们可以基于依赖对流的调用进行调度;因为其执行顺序独立于构造顺序,这样就可以对部分流和cascades进行并发调用。此外,各种流的步骤被智能地转换成对应于hadoop cluster的map-reduce调用。
  • 事件通知——流的各种步骤可以通过回调进行通知,以此告诉主机应用去报告和响应数据处理的过程。
  • 脚本化——Cascading API有针对Jython、Groovy和JRuby的脚本化接口——这使其适合于常见的动态JVM语言原文链接:http://www.infoq.com/cn/news/2008/10/cascading
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值