3个案例教你用Spark解决Map Reduce问题!

88 篇文章 1 订阅
78 篇文章 0 订阅

    Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目。

    Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比,Spark可以让你的程序在内存中运行时速度提升100倍,或者在磁盘上运行时速度提升10倍。同时spark也让传统的mapreducejob开发变得更加简单快捷。之前我们大圣众包小编也为大家整理过Spark书单和方法,而本文将简单介绍几个经典hadoop的mr按理用spark实现,来让大家熟悉spark的开发。

  最大值最小值

  求最大值最小值一直是Hadoop的经典案例,我们用Spark来实现一下,借此感受一下spark中mr的思想和实现方式。话不多说直接上code

  预期结果:

  max:1001min:2

  思路和hadoop中的mr类似,设定一个key,value为需要求最大与最小值的集合,然后再groupBykey聚合在一起处理。第二个方法就更简单,性能也更好。

  平均值问题

  求每个key对应的平均值是常见的案例,在spark中处理类似问题常常会用到combineByKey这个函数,详细介绍请google一下用法,下面看代码:

  我们让每个partiton先求出单个partition内各个key对应的所有整数的和sum以及个数count,然后返回一个pair(sum,count)在shuffle后累加各个key对应的所有sum和count,再相除得到均值.

  TopN问题

  Topn问题同样也是hadoop种体现mr思想的经典案例,那么在spark中如何方便快捷的解决呢:

  思路很简单,把数据groupBykey以后按key形成分组然后取每个分组最大的2个。预期结果:

  以上简单介绍了一下hadoop中常见的3个案例在spark中的实现。如果读者们已经接触过或者写过一些hadoop的mapreducejob,那么会不会觉得在spark中写起来方便快捷很多呢。


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值