Spark中的transformation和action、element和partition

最新推荐文章于 2023-02-17 17:04:50 发布

卡卡东~

最新推荐文章于 2023-02-17 17:04:50 发布

阅读量1.2k

点赞数 2

分类专栏： spark 文章标签： spark big data 大数据

本文链接：https://blog.csdn.net/qq_40454136/article/details/121996540

版权

spark 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Spark中的transformation和action、element和partition

transformation
action
element和partitions

Spark中transformation和action是RDD中两个重要的组成部分，也可以理解为一个完整的RDD任务由这两部分操作组成。在transformation和action操作下，也有两个重要的概念element和partition下面是对它们的一些理解：

transformation

Transformation用于对RDD的创建，还可以把一个RDD转换为另一个RDD，方式很多，比如从数据源生成一个新的RDD，从RDD生成一个新的RDD
发生此操作的转换算子如下：

map(func):对调用map的RDD数据集中的每个element都使用func，然后返回一个新的RDD

filter(func): 对调用filter的RDD数据集中的每个元素都使用func，然后返回一个包含使func为true的元素构成的RDD

flatMap(func):和map差不多，但是flatMap生成的是多个RDD

mapPartitions(func):和map很像，但是map是每个element，而mapPartitions是每个partition

mapPartitionsWithSplit(func):和mapPartitions很像，但是func作用的是其中一个split上，所以func中应该有index

sample(withReplacement,faction,seed):抽样

union(otherDataset)：返回一个新的dataset，包含源dataset和给定dataset的元素的集合

distinct([numTasks]):返回一个新的dataset，这个dataset含有的是源dataset中的distinct的element

groupByKey(numTasks):返回(K,Seq[V])，

reduceByKey(func,[numTasks]):就是用一个给定的reducefunc再作用在groupByKey产生的(K,Seq[V]),比如求和，求平均数

sortByKey([ascending],[numTasks]):按照key来进行排序，是升序还是降序，ascending是boolean类型

join(otherDataset,[numTasks]):当有两个KV的dataset(K,V)和(K,W)，返回的是(K,(V,W))的dataset,numTasks为并发的任务数

cogroup(otherDataset,[numTasks]):当有两个KV的dataset(K,V)和(K,W)，返回的是(K,Seq[V],Seq[W])的dataset,numTasks为并发的任务数

cartesian(otherDataset)：笛卡尔积就是m*n

action

action是行动、计算的意思，会对前面的Transformation操作进行执行，得到结果
发生此操作的行动算子如下：

reduce(func)：聚集，但是传入的函数是两个参数输入返回一个值，这个函数必须是满足交换律和结合律的

collect()：一般在filter或者足够小的结果的时候，再用collect封装返回一个数组

count():返回的是dataset中的element的个数

first():返回的是dataset中的第一个元素

take(n):返回前n个elements

takeSample(withReplacement，num，seed)：抽样返回一个dataset中的num个元素，随机种子seed

saveAsTextFile（path）：把dataset写到一个textfile中，或者hdfs，或者hdfs支持的文件系统中，spark把每条记录都转换为一行记录，然后写到file中

saveAsSequenceFile(path):只能用在key-value对上，然后生成SequenceFile写到本地或者hadoop文件系统

countByKey()：返回的是key对应的个数的一个map，作用于一个RDD

foreach(func):对dataset中的每个元素都使用func

foreachPartition(func):对dataset中的每个分区使用func，之后可以再对分区迭代

目前接触的RDD操作还不是很多，以后有了更深的理解再进行补充。上诉算子操作引用来自此文：原文链接
版权声明：本文为CSDN博主「简单点1024」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/zhangbaoanhadoop/article/details/82111029

element和partitions

在上诉的操作算子中，有map()、mapPartitions()或者foreach()、foreachPartition()这样的操作。element是RDD中的元素，而partitsions是对若干个元素的分批，如果是普通的map或foreach操作，一次function的执行就处理一条数据；而partitons中，一个task仅仅会执行一次function，function一次接收所有的partition数据。比如有一个需求，将数据插入某个表，如下：

arrayRDD.mapPartitions(datas=>{
      dbConnect = getDbConnect() //获取数据库连接
      datas.foreach(data=>{
        dbConnect.insert(data) //循环插入数据
      })
      dbConnect.commit() //提交数据库事务
      dbConnect.close() //关闭数据库连接
    })

每批数据只需要开启一次数据库连接，大大减少了连接开支。

partitions的缺点
如果是普通的map操作，一次function的执行就处理一条数据；那么如果内存不够用的情况下，比如处理了1千条数据了，那么这个时候内存不够了，那么就可以将已经处理完的1千条数据从内存里面垃圾回收掉，所以说普通的map操作通常不会导致内存的OOM异常。

但是MapPartitions操作，对于大量数据来说，比如甚至一个partition，100万数据，一次传入一个function以后，那么可能一下子内存不够，但是又没有办法去腾出内存空间来，可能就OOM，内存溢出。

卡卡东~

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark中的transformation和action、element和partition

Spark中transformation和action是RDD中两个重要的组成部分，也可以理解为一个完整的RDD任务由这两部分操作组成。在transformation和action操作下，也有两个重要的概念element和partition
复制链接

扫一扫