Java8中的Mapreduce

Wordcount旨在Mapreduce其余编程世界中的“ Hello world”。 最近,我一直在探索一些更著名的Java 8功能,例如Lambda,Streams和Optionals,因此我认为在Java中简化Wordcount版本会很不错。

Java的Stream和Lambda函数使实现数据处理管道变得非常容易和简洁。 在Java 8之前,将需要花费一些额外的常规精力来编写代码,这些代码利用Java的并发机制并受益于多核CPU(现在已经很正常了)。 因此,让我们看一下Java 8代码,我有两个测试,它们都执行相同的操作,但是一个使用Java库中的并发API,而另一个则没有。 目的是说明编写代码并发运行并测试每个代码要花多少时间是很容易的-并发与非并发。

现在让我们看一些代码

数据处理管道中的各个步骤包括:

  1. 在第19和34行上,我们以流的形式读取了一个文本文件(测试使用了来自Gutenberg项目的Jane Austen的《傲慢与偏见》 – http://www.gutenberg.org/cache/epub/42671/pg42671.txt)。 其余各点从左至右解释了线22和37。
  2. 读取每一行,并使用正则表达式\ W在非单词边界处将其分割。 这将给出一个字符串数组流– Stream <String []>
  3. 我们需要一个字符串流– Stream <String>,因此可以使用flatMap(Arrays :: stream)对其进行展平。 数组中的流函数从数组生成流。 因此,基本上flatMap会将Stream <Stream <String >>展平为Stream <String>。 这是我们开始要达到的目标。
  4. 接下来,我们将流中的每个元素都转换为LowerCase,这样我们就不计算“ Pride”和“ pride”两个不同的词了。 第2、3和4点都是关于映射的– Mapreduce中的“ Map”
  5. 至此,我们以小写形式列出了本书中所有单词。 因此,我们可以使用groupingBy / groupingByConcurrent收集器开始对它们进行分组。 收集器是约简的一种形式,即Mapreduce中的“约简”。 groupingBy具有2个参数-1。是一个功能,也称为分类器,它使我们可以将流中的每个值分配到一个组中。 第二个参数用于下游还原。 它使我们能够进一步减少我们归入每个组的元素。 既然,我们不需要对每个元素进行分类,我们只需要返回第一个参数s-> s中的元素即可。 在第二个参数中,我们调用count()收集器,该收集器对每个组中的元素进行计数。

我敢肯定,现在您可以轻松地看到我们可以简洁地表达多少处理能力。

我的系统上的并发测试与非并发测试以毫秒为单位的“时间花费”的比较

非并发同时
161 80
162 82
161 85
168 80
170 79

我一直发现并发版本在时间上表现更好。 我更需要使用Java 8。

翻译自: https://www.javacodegeeks.com/2015/03/mapreduce-in-java8.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值