Spark Transformation —— distinct 算子

最新推荐文章于 2024-05-11 15:48:18 发布

搬砖小工053

最新推荐文章于 2024-05-11 15:48:18 发布

阅读量3.8k

点赞数

分类专栏： Spark 文章标签： spark distinct 算子

本文链接：https://blog.csdn.net/SA14023053/article/details/51992615

版权

Spark 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

distinct

对RDD中的元素进行去重操作。

代码测试

测试数据准备

在hdfs上放一个文件1.txt
这里写图片描述
打开spark-shell

spark-shell --master spark://master:7077(重要的事情说多遍，spark-shell和spark-submit核心的参数是差不多的)

创建RDD

var data = sc.textFile("/qgzang/1.txt")

这里写图片描述

测试distinct 算子

scala> data.flatMap(line => line.split("\\s+")).collect
res61: Array[String] = Array(hello, world, hello, spark, hello, hive, hi, spark)

scala> data.flatMap(line => line.split("\\s+")).distinct.collect
res62: Array[String] = Array(hive, hello, world, spark, hi)

这里写图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

搬砖小工053

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark Transformation —— distinct 算子

distinct对RDD中的元素进行去重操作。代码测试测试数据准备在hdfs上放一个文件1.txt 打开spark-shellspark-shell --master spark://master:7077(重要的事情说多遍，spark-shell和spark-submit核心的参数是差不多的)创建RDDvar data = sc.textFile("/qgzang/1.txt") 测试di
复制链接

扫一扫