Cascading个人总结

最新推荐文章于 2023-04-17 01:34:01 发布

weixin_34293902

最新推荐文章于 2023-04-17 01:34:01 发布

阅读量164

点赞数

文章标签：大数据

原文链接：http://blog.51cto.com/9006535/1586054

版权

1. What’s cascading?

Cascading项目始于2007年夏天，是一个架构在Hadoop上的API，用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置来快速开发复杂分布式的应用，而不用考虑背后的MapReduce。Cascading目前依赖于Hadoop提供存储和执行架构，但是Cascading API为开发者隔离了Hadoop的技术细节，提供了不需要改变初始流程工作流定义就可以在不同的计算框架内运行的能力。

2. Why use cascading?

2.1 Hadoop’s problem

1.map和reduce操作提供了强大的原语操作。然而，在创建复杂的、可以被不同开发者共享的合成性高的代码时，它们粒度级别似乎不合适

2.许多开发者发现当他们面对实际问题的时候，很难用MapReduce的模式来思考问题。

2.2 Cascading’s solution

1.为了解决第一个问题，Cascading用简单字段名和一个数据元组模型值来替代MapReduce使用的键和值，而该模型的元组是由值的列表构成的。

2.对第二个问题，Cascading直接从Map和Reduce操作分离出来，引入了更高层次的抽象：Function，Filter，Aggregator和Buffer。

3. What it’s like?

3.1 Hadoop Dataflow

3.2 Cascading Dataflow

字段：表示名称，位置信息，与列名类似。用来表示元组里值的名称或者位置。

元组：Comparable对象数组，类似于行和记录。

3.3 Cascading Pipe

Each管道一次处理一个单独输入元组。可对输入元组执行一个func或者filter。

GroupBy管道在分组字段上对元组进行分组。

CoGroup管道实现相同字段名的连接，类似于SQL中的join。

Every管道可处理由GroupBy或CoGroup产生的的数据，同时可以对分组数据应用Aggretator或Buffer。

SubAssembly管道允许在一个单独的管道内进行循环嵌套流水线处理，或者一个管道被嵌套更加复杂的流水线处理。

3.4 Cascading Operaton

Function作用于单个输入元组，返回0或多个输出元组，提供Each类型管道使用。

Filter返回Boolean，用于过滤元组数据。

Aggregator对一组元组执行某种操作，这些分组元组是通过一组共同字段分组得到的。常见的Aggregator如求和，计数，均值，最大最小值等。

Buffer与Aggregator类似，但能够动态的往元组中加入值。

3.5 Cascading Flow

4 How it works

Cascading框架

Cascading执行流程

本文部分内容摘自：Hadoop权威指南

部分图片来自网络，部分为根据Hadoop权威指南中图片绘制。

转载于:https://blog.51cto.com/9006535/1586054

weixin_34293902

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Cascading个人总结

1. What’scascading?Cascading项目始于2007年夏天，是一个架构在Hadoop上的API，用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置来快速开发复杂分布式的应用，而不用考虑背后的MapReduce。Cascading目前依赖于Hadoop提供存储和执行架构，但是Cascading API为开发者隔离了Hadoop的技术细节，提供了不...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。