spark数据集操作

最新推荐文章于 2022-12-18 20:53:34 发布

82年的哇哈哈

最新推荐文章于 2022-12-18 20:53:34 发布

阅读量480

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_42201566/article/details/85699591

版权

spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

首先将一行映射为整数值，从而创建一个新的数据集。reduce在该数据集上调用以查找最大字数。

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)
res4: Long = 15

我们可以轻松调用其他地方声明的函数。我们将使用Math.max()函数使这段代码更容易理解：

scala> import java.lang.Math
import java.lang.Math

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => Math.max(a, b))
res5: Int = 15

一种常见的数据流模式是MapReduce。Spark可以轻松实现MapReduce流程：

scala> val wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()
wordCounts: org.apache.spark.sql.Dataset[(String, Long)] = [value: string, count(1): bigint]

在这里，调用flatMap将行数据集转换为单词数据集，然后组合groupByKey并count计算文件中的单词计数作为（字符串，长整数）对的数据集。要在我们的shell中收集单词count，我们可以调用collect：

scala> wordCounts.collect()
res6: Array[(String, Int)] = Array((means,1), (under,2), (this,3), (Because,1), (Python,2), (agree,1), (cluster.,1), ...)

82年的哇哈哈

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark数据集操作

首先将一行映射为整数值，从而创建一个新的数据集。reduce在该数据集上调用以查找最大字数。scala&gt; textFile.map(line =&gt; line.split(" ").size).reduce((a, b) =&gt; if (a &gt; b) a else b)res4: Long = 15我们可以轻松调用其他地方声明的函数。我们将使用Math.max...
复制链接

扫一扫