RDD编程(python版)总结

最新推荐文章于 2023-10-04 00:00:00 发布

原创

最新推荐文章于 2023-10-04 00:00:00 发布 · 1.9k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#spark #python

本文总结了在Spark中使用Python进行RDD编程的主要内容，包括通过parallelize和textFile创建RDD，以及如何使用foreach、collect等方法显示RDD。重点讲解了转换操作如filter、map、flatMap、groupBy、reduceByKey，以及行动操作如count、collect、first、take和reduce的用法，并给出了多个实例演示。

一、RDD创建方式包括:parallelize、textFile
1.parallelize：将一个已存在的集合生成RDD。

data=[1,2,3,4,5]
rdd=sc.parallelize(data)

2.textFile：通过读取外部文件生成RDD

rdd = sc.textFile("demo.txt")

二、将RDD显示的方法包括：foreach()、collect()

rdd.foreach(print)

rdd.collect()

三、RDD的操作：包括两类，转换操作和行动操作。
1.转换操作中的常用操作有:
filter()、map()、flatMap()、groupBy()、reduceByKey()。
（1）filter（func）:用于筛选。
例1：将data中含有hadoop的元素筛选出来：

data=["spark is good","hadoop is better","hadoop is fast"]
rdd=sc.parallelize(data)
rdd1=rdd.filter(lambda x:"hadoop" in x)
rdd1.foreach(print)

运行结果是：

hadoop is better
hadoop is fast

例2：将data2中可以被2整除的数字筛选出来：

data=[12,2,43,25,64,45,86]
rdd=sc.parallelize(data)
rdd1=rdd.filter(lambda x:x%2==0)
rdd1.foreach(print)
</

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

呼啦呼啦悦

关注关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

RDD编程总结

qq_39579290的博客

07-15

591

Spark：RDD编程总结(概述、算子、分区、共享变量)

Jodness' Blogs

08-04

2282

目录 1、RDD概述 1.1、RDD是什么 1.2、RDD的弹性 1.3、RDD的特点 1.3.1、分区 1.3.2、只读 1.3.3、依赖 1.3.4、缓存 1.3.5、检查点 2、RDD编程 2.1、RDD创建 2.1.1、并行化集合 2.1.2、读取外部数据集 2.2、RDD的操作 2.2.1、转换 2.2.2、行动 2.2.3、控制 1）缓...

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

知恩呐111 2022.04.25
请问Python版本是多少呀

RDD编程初级实践（基于python）

weixin_45150813的博客

06-05

2588

RDD编程初级实践（基于python）1.实验目的2.实验环境3.实验数据3.1pyspark交互式编程（实验描述）3.2编写独立应用程序实现数据去重（实验描述）3.3编写独立应用程序实现求平均值问题（实验描述）3.4实验数据下载4.实验步骤4.1pyspark交互式编程4.2编写独立应用程序实现数据去重4.3编写独立应用程序实现求平均值问题 1.实验目的（1）熟悉Spark的RDD基本操作及键值对操作；（2）熟悉使用RDD编程解决实际具体问题的方法。 2.实验环境（1）操作系统：Ubuntu16.0

RDD（python

KwokWyman的博客

12-15

2510

RDD创建从文件系统加载 .textFile() 支持本地文件系统分布式文件系统HDFS 云端文件 >>lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") >>lines.foreach(print) Hadoop is good Spark is fast Spark is better sc : spark context textFile效果分布式文件系统通过并行集合（数组）创建

Spark中RDD的常用操作（Python）

weixin_30709809的博客

07-08

176

弹性分布式数据集（RDD） Spark是以RDD概念为中心运行的。RDD是一个容错的、可以被并行操作的元素集合。创建一个RDD有两个方法：在你的驱动程序中并行化一个已经存在的集合；从外部存储系统中引用一个数据集。RDD的一大特性是分布式存储，分布式存储在最大的好处是可以让数据在不同工作节点并行存储，以便在需要数据时并行运算。弹性指其在节点存储时，既可以使用内存，也可已使用外存，为...

RDD编程初级实践

weixin_42378292的博客

06-14

3805

一、实验目的（1）熟悉Spark的RDD基本操作及键值对操作；（2）熟悉使用RDD编程解决实际具体问题的方法。二、实验平台操作系统：Ubuntu16.04 Spark版本：2.4.0 Python版本：3.4.3 三、实验内容和要求 1．pyspark交互式编程 ...

Python大数据之PySpark(五)RDD详解

Maynor的博客

10-04

1990

📢本文由 Maynor 原创，首发于 CSDN博客🙉。分区个数getNumberPartitions。📢感觉这辈子，最深情绵长的注视，都给了手机⭐。分区内元素glom().collect()PySpark中RDD的创建两种方式。扩展阅读：RDD分区数如何确定。WordCount中RDD。RDD特点—不需要记忆。通过外部数据创建RDD。并行化方式创建RDD。

RDD基本操作（Python）

老肥码码码

01-23

9511

RDD基本转换运算创建RDD最简单的方式是使用SparkContext的parallelize方法 intRDD=sc.parallelize([3,1,2,5,5]) intRDD.collect() 由于spark的惰性，转化操作并不会马上执行，而collect()是一个“动作”，spark立刻执行,RDD转换为list 关于collect,在shell环境可以直接显示结果，在ec...

RDD编程（pyspark）

Chelseady的博客

08-05

1622

一.创建RDD 两种方式：第一种：读取一个外部数据集。从本地文件加载数据集，或者从HDFS文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件（Hadoop提供的 SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件）和其他符合Hadoop InputFormat...

对RDD的一点感想（新手向）

smile17302519746的博客

04-10

473

RDD是什么 RDD怎么用第一个RDD 一系列RDD 保存RDD RDD是什么我们使用Spark，是因为数据量太大或者运算太复杂，单机无法处理，需要运用分布式环境。以往单机编程中使用的数据结构如Int，List等，无法直接使用（比如我们 int i= 0，这 i 存储在哪里？哪一台机器？内存还是外存？）。在这种情况下，RDD(Resilient Distributed...

DummyRDD:pyspark的RDD的纯Python模拟

05-11

虚拟RDD 贡献者概述像RDD一样走路的测试类，像RDD一样说话，但只是一个列表。包含3个主要类别：星火汇 SparkContext RDD 所有这些都实现了与实际spark方法完全相同的API，但是使用一个简单的python列表作为实际数据存储区。 Hadoop API，分区，复杂操作等许多功能未实现。有关实现的功能及其注意事项的详细列表，请参见下文。请注意，目前这只是实验性的，以后可能对测试或开发有用，但是使用此工具开发的任何东西都应始终在真实的火花上进行检查，以确保在那里确实可以正常工作。由于实际上没有任何代码在此环境中分发，因此某些事情的行为会有所不同。打算将该库用作真正的Spark上下文的替代品，而不会出错，但实际上可能什么也没做（例如，在不相关的配置选项的情况下）。当前，不支持数据框api，也不支持任何事物的大多数功能，但仍在进行中。例子一个

RDD编程初级实践（Python版）

WangmZec的博客

06-05

872

RDD编程初级实践（Python版）一、实践所需资料及平台要求1.所需数据获取2.实践所需平台二、实践内容1.pyspark交互式编程（1）该系总共有多少学生；（2）该系共开设了多少门课程；（3）Tom同学的总成绩平均分是多少；（4）求每名同学的选修的课程门数；（5）该系DataBase课程共有多少人选修；（6）各门课程的平均分是多少；（7）使用累加器计算共有多少人选了DataBase这门课。2.编写独立应用程序实现数据去重编写内容如下：1）在usr/local/spark/sparksqldata路径下创

RDD编程小结

weixin_46387455的博客

07-20

326

来来来

Spark RDD Python 学习笔记一

风之翊的专栏

06-12

445

Spark RDD学习笔记参考： Spark Downloads Spark Quick Start RDD Programming Guide 安装从http://spark.apache.org/downloads.html下载 spark-2.3.0-bin-hadoop2.7.tgz包。传送到linux服务器上,我这里是放在root下。解压： tar -zxv...

PythonRDD[1] at RDD at PythonRDD.scala:53

yujinlong2002的博客

02-08

1554

PythonRDD[1] at RDD at PythonRDD.scala:53 简单明了

【Python】PySpark 数据输入 ① ( RDD 简介 | RDD 中的数据存储与计算 | Python 容器数据转 RDD 对象 | 文件文件转 RDD 对象 )

让学习成为一种习惯 ( 韩曙亮の技术博客 )

07-30

4724

一、RDD 简介 1、RDD 概念 2、RDD 中的数据存储与计算二、Python 容器数据转 RDD 对象 1、RDD 转换 2、转换 RDD 对象相关 API 3、代码示例 - Python 容器转 RDD 对象 ( 列表 ) 4、代码示例 - Python 容器转 RDD 对象 ( 列表 / 元组 / 集合 / 字典 / 字符串 ) 三、文件文件转 RDD 对象

Spark学习之RDD编程总结

09-11

832

　　Spark 对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset，简称 RDD）。RDD 其实就是分布式的元素集合。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。而在这一切背后，Spark 会自动将RDD 中的数据分发到集群上，并将操作并行化执行。一、RDD基础　　Spark 中的 RDD 就是一个不可变的分布式对象集合。每个 RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD

Spark编程基础(Python版)之RDD

qq_56477059的博客

03-19

2376

在mapreduce框架执行时，会将中间结果写入到稳定存储（磁盘）中，会造成大量的数据复制、磁盘io、序列化开销。RDD提供一个抽象的数据构架，需要将具体的应用逻辑表达为一系列转换处理。不同的RDD之间的转换形成依赖关系，可以实现管道化，避免中间数据存储。一、什么是RDD 分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可以分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，可以在不同节...

Spark学习心得（一）：Spark RDD基本操作

asdssssasd的博客

04-04

1434

一、RDD.fold和Scala.fold使用之间的差别1.Scala中fold的使用val t1=Array(("C++", (1,"1")), ("Java", (2,"2")),("Java", (2,"2")), ("SQL", (3,"3")), ("Python", (4,"4"))) val rs

创建RDD编程