Spark之RDD编程

最新推荐文章于 2024-08-02 19:47:45 发布

大眼睛尖下巴的喵ᕕ(ᐛ)ᕗ

最新推荐文章于 2024-08-02 19:47:45 发布

阅读量142

点赞数

分类专栏：数据库文章标签： spark 大数据

本文链接：https://blog.csdn.net/weixin_42642232/article/details/118699988

版权

数据库专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了如何使用PySpark在Spark中创建RDD，包括从本地文件和Driver内存中加载数据，以及执行Action操作如collect和take。重点展示了parallelize函数和RDD的典型用法。

摘要由CSDN通过智能技术生成

import pyspark 
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("rdd_tutorial").setMaster("local[4]")
sc = SparkContext(conf=conf)
print(pyspark.__version__)

一，创建RDD

textFile加载本地或者集群文件系统中的数据,或者parallelize方法将Driver中的数据结构并行化成RDD

#从本地文件系统中加载数据
file = "./data/hello.txt"
rdd = sc.textFile(file,3)
rdd.collect()
#['hello world',
#'hello spark',
#'spark love jupyter',
#'spark love pandas',
#'spark love sql']
#parallelize将Driver中的数据结构生成RDD,第二个参数指定分区数
rdd = sc.parallelize(range(1,11),2)

二，Action操作

Action操作将触发基于RDD依赖关系的计算。

#collect
rdd = sc.parallelize(range(10),5) 
all_data = rdd.collect()
all_data
#[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
#take操作将前若干个数据汇集到Driver，相比collect安全
rdd = sc.parallelize(range(10),5) 
part_data = rdd.take(4)
part_data

大眼睛尖下巴的喵ᕕ(ᐛ)ᕗ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark之RDD编程

import pyspark from pyspark import SparkContext, SparkConfconf = SparkConf().setAppName("rdd_tutorial").setMaster("local[4]")sc = SparkContext(conf=conf)print(pyspark.__version__)一，创建RDDtextFile加载本地或者集群文件系统中的数据,或者parallelize方法将Driver中的数据结构并行化成RDD.
复制链接

扫一扫

专栏目录