大数据-玩转数据-Spark-RDD编程基础-RDD操作(python版)

本文介绍了Spark中RDD的基础操作,包括转换(Transformation)如filter、map、flatMap、groupByKey,以及行动(Action)如count、collect、first、take和reduce。RDD的惰性机制确保了转换仅记录操作轨迹,直到行动操作时才执行计算。
摘要由CSDN通过智能技术生成

大数据-玩转数据-Spark-RDD编程基础-RDD操作(python版)

RDD操作包括两种类型:转换(Transformation)和行动(Action)
1、转换操作
RDD每次转换操作都会都会产生新的RDD,供下一转换或行动使用,所以叫惰性求值,转换只记录了轨迹,不执行,行动才执行。
常用的RDD转换操作API
filter(func) : 筛选出满足func函数的元素,并返回一个新的数据集
map(func):将每个元素传递到函数func中,并将结果返回已个新的数据集
flatMap(func):与map(func)相似,但每个输入元素都可映射到0或多个输出结果
groupByKey():应用到键值对的数据集时,返回一个新的(K,Iterable)形式的数据集
reduceByKey(func):应用于(K,V)键值对的数据集时,返回一个新的键值对的数据集(K,V),其中每个值都是将每个key传递到func中进行聚合后的集合

(1)、filter(func)

>>> lines = sc.textFile("file:///home/hadoop/temp/word.txt")
>>> linesWithSpark = lines.filter(lambda line:"Spark" in line)
>>> linesWithSpark.foreach(print)

在这里插入图片描述
(2)、map(func)

data = [1,2,3,4,5]
rdd1 = sc.parallelize(data)
rdd2 = rdd1.map(lambda x:x+1)
rdd2.foreach(print)

在这里插入图片描述

>>> lines = sc.textFile("file:///home/hadoop/temp/word.txt")
>>> words = li
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值