【spark】Spark算子：RDD基本转换操作–map、flagMap、distinct

最新推荐文章于 2022-09-29 10:38:03 发布

IT猫咪酱

最新推荐文章于 2022-09-29 10:38:03 发布

阅读量564

点赞数

分类专栏：大数据文章标签： spark map flagMap

本文链接：https://blog.csdn.net/ranran0224/article/details/73801165

版权

本文详细介绍了Spark中的RDD转换操作，包括map函数如何将每个数据项映射为新元素，保持输入与输出分区的一一对应；flatMap在处理字符串时会将其视为字符数组并扁平化；以及distinct算子用于去除RDD中的重复元素。同时，文章提醒在使用flatMap时注意返回值类型，避免意外的扁平化操作。

摘要由CSDN通过智能技术生成

将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。

输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。

 
 
 
  hadoop fs -cat /tmp/lxw1234/1.txt
  hello world
  hello spark
  hello hive
   
   
  //读取HDFS文件到RDD
  scala> var data = sc.textFile("/tmp/lxw1234/1.txt")
  data: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at :21
   
  //使用map算子
  scala> var mapresult = data.map(line => line.split("\\s+"))
  mapresult: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[2] at map at :23

最低0.47元/天解锁文章

IT猫咪酱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【spark】Spark算子：RDD基本转换操作–map、flagMap、distinct

map将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello hive //读取HDFS文件到RDDscala> var data = sc.textFile("/tmp/lxw123
复制链接

扫一扫

专栏目录