pyspark之RDD

本文介绍了pyspark中的核心概念——RDD,即弹性分布式数据集。RDD是一个不可变的分布式对象集合,由多个分区组成,可在集群的不同节点上运行。文章详细阐述了如何创建RDD,包括通过并行化集合和读取外部数据集。接着,重点讨论了转化操作,如使用map()和filter()进行元素级别的转换,以及行动操作,如collect()和take(),前者用于获取RDD的所有元素,后者用于获取指定数量的元素。
摘要由CSDN通过智能技术生成

RDD简介

RDD就是一个不可变的分布式对象集合—弹性分布式数据集(Resilient Distributed Dataset)。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含任意类型的对象,包括用户自定义的对象。

RDD常用操作

创建RDD

1.对一个集合进行并行化

x = sc.parallelize([1.0, 0.0, -2.0], 2)

2.读取外部数据集

textFile = sc.textFile(path)

转化操作(转化操作会形成新的RDD)

针对各个元素的转化操作

两个最常用的转化操作是map()和filter()。转化操作map()接收一个函数,将这个函数用于RDD中的每个元素,将函数的返回结果作为结果RDD中对应元素的值。转化操作filter()接收一个函数,并将RDD中满足该函数的元素放入新的RDD中返回。

1.map()

df1=df.select('cpurate','memrate','ser','plr','temp','alldevicenumber','opticalinpower','opticaloutpower','dialingnumber')
df1.show(5)

+-------+-------+---+---+----+---------------+---
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值