Java8中的Mapreduce

最新推荐文章于 2024-04-23 10:18:49 发布

cunfeng7797

最新推荐文章于 2024-04-23 10:18:49 发布

阅读量274

点赞数

文章标签： java python 大数据深度学习编程语言

原文链接：https://www.javacodegeeks.com/2015/03/mapreduce-in-java8.html

版权

Wordcount旨在Mapreduce其余编程世界中的“ Hello world”。最近，我一直在探索一些更著名的Java 8功能，例如Lambda，Streams和Optionals，因此我认为在Java中简化Wordcount版本会很不错。

Java的Stream和Lambda函数使实现数据处理管道变得非常容易和简洁。在Java 8之前，将需要花费一些额外的常规精力来编写代码，这些代码利用Java的并发机制并受益于多核CPU(现在已经很正常了)。因此，让我们看一下Java 8代码，我有两个测试，它们都执行相同的操作，但是一个使用Java库中的并发API，而另一个则没有。目的是说明编写代码并发运行并测试每个代码要花多少时间是很容易的-并发与非并发。

现在让我们看一些代码。

数据处理管道中的各个步骤包括：

在第19和34行上，我们以流的形式读取了一个文本文件(测试使用了来自Gutenberg项目的Jane Austen的《傲慢与偏见》 – http://www.gutenberg.org/cache/epub/42671/pg42671.txt)。其余各点从左至右解释了线22和37。
读取每一行，并使用正则表达式\ W在非单词边界处将其分割。这将给出一个字符串数组流– Stream <String []>
我们需要一个字符串流– Stream <String>，因此可以使用flatMap(Arrays :: stream)对其进行展平。数组中的流函数从数组生成流。因此，基本上flatMap会将Stream <Stream <String >>展平为Stream <String>。这是我们开始要达到的目标。
接下来，我们将流中的每个元素都转换为LowerCase，这样我们就不计算“ Pride”和“ pride”两个不同的词了。第2、3和4点都是关于映射的– Mapreduce中的“ Map”
至此，我们以小写形式列出了本书中所有单词。因此，我们可以使用groupingBy / groupingByConcurrent收集器开始对它们进行分组。收集器是约简的一种形式，即Mapreduce中的“约简”。 groupingBy具有2个参数-1。是一个功能，也称为分类器，它使我们可以将流中的每个值分配到一个组中。第二个参数用于下游还原。它使我们能够进一步减少我们归入每个组的元素。既然，我们不需要对每个元素进行分类，我们只需要返回第一个参数s-> s中的元素即可。在第二个参数中，我们调用count()收集器，该收集器对每个组中的元素进行计数。

我敢肯定，现在您可以轻松地看到我们可以简洁地表达多少处理能力。

我的系统上的并发测试与非并发测试以毫秒为单位的“时间花费”的比较

非并发	同时
161	80
162	82
161	85
168	80
170	79

我一直发现并发版本在时间上表现更好。我更需要使用Java 8。

翻译自: https://www.javacodegeeks.com/2015/03/mapreduce-in-java8.html

cunfeng7797

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java8中的Mapreduce

Wordcount旨在Mapreduce其余编程世界中的“ Hello world”。最近，我一直在探索一些更著名的Java 8功能，例如Lambda，Streams和Optionals，因此我认为在Java中简化Wordcount版本会很不错。 Java的Stream和Lambda函数使实现数据处理管道变得非常容易和简洁。在Java 8之前，将需要花费一些额外的常规精力来编写代码，这些...
复制链接

扫一扫