学习spark:二、RDD的Transformations操作

本文详细介绍了Spark中RDD的Transformation操作,包括Value数据类型的map、filter、flatMap等,以及Key-Value数据类型的groupByKey、reduceByKey、aggregateByKey等,帮助理解这些操作在分布式计算中的应用。
摘要由CSDN通过智能技术生成

一、简介

  Spark中的核心数据模型是弹性分布式数据集(RDD),而弹性分布式数据集(RDD)是个抽象类,具体的实现是由各个子类实现的。Spark将常用的大数据操作都转换为对RDD的子类操作。
  Transformation操作的对象有两种:Value数据类型,Key-Value数据类型。下面将这两种数据类型的操作列出来:

二、Translation操作

2.1 Value数据类型

map(func)
  将原来RDD中的每个元素通过自定义函数func转换为一个包含新元素的RDD。

filter(func)
  对原有RDD中的元素进行过滤,每个元素输入到func函数中,如果func函数返回为true则保留,返回false则丢弃。

flatMap(func)
  功能与map相似,但是输出的是一个集合。

mapPatitions(func)
  功能与map相似,但是mapPatitions获取的是每个分区的迭代器。

mapPationsWithIndex(func)
  功能与mapPatitions相似,但是func函数要返回一个表示分区index的interger类型的值

sanple(withReplacement, fraction, seed)
  对数据集中的数据进行采样,想成一个新的RDD

union(otherDateset)
  将两个数据类型相同的RDD合并成一个RDD

intersection(oterDataset)
  返回一个包含两个数据类型相同的RDD的交集的全新的RDD

distinc

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值