Spark学习—— (6) 键值对RDD编程(基于Python)

键值对RDD是许多操作所需要的常见数据类型,也叫做pair RDD通常我们会从一个RDD提取某些信息作为新的RDD的键,构成一个键值对RDD。

pair RDD也是RDD,所以上一篇笔记中介绍的RDD操作对pair RDD同样适用。

本文介绍针对键值对RDD的常用操作及实例。

1. pair RDD的创建

  1. 很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pair RDD
  2. 使用map把普通RDD转化为pair RDD,map的函数要返回键值对,如以每个句子的第一个字母作为键

2. pair RDD的Transformation操作

2.1 单个pair RDD
  1. reduceByKey,提供一个函数,对key相同的value进行运算,如字符串拼接
  1. groupByKey,将key相同的value合并为一个迭代器,得到(key, iterator)形式的pair
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值