Spark_02 RDD专题_01

最新推荐文章于 2024-09-15 11:20:48 发布

快打钱！

最新推荐文章于 2024-09-15 11:20:48 发布

阅读量947

点赞数 39

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/a666b777/article/details/140025810

版权

说明

本章主要是对spark最核心的数据结构RDD的介绍和应用。属于Spark分析计算引擎的敲门砖，需重点掌握。

概念

1.本质是弹性分布式集合，是spark中最基本最核心的数据结构。

2.将spark需要处理的数据和中间计算结果以RDD形式存储在内存中。

3.spark中除了RDD数据类型之外，还有DataFrame和DataSet

4.在python中一切皆对象，RDD数据类型就是RDD对象，提供了一些处理RDD对象的算子（方法）

5.RDD是存储数据的集合，类似于python中的列表

特点

分区：弹性，将RDD中数据拆分成多份进行处理，一个分区数据对应一个task线程执行

只读：RDD只能读取，不能进行修改，类似于python的不可变类型

依赖：新RDD是由旧RDD计算产生的

缓存：将计算结果进行缓存，保证spark程序的容错性。如果spark计算失败，会从缓存出获取rdd

重新计算。将缓存RDD优先保存在内存中，spark程序运行结束后缓存的RDD就会被销毁。

CheckPoint：类缓存操作，将Spark的中间计算结果RDD永久存储在HDFS中，Spark程序运行结

束后不会删除checkpoint

RDD的创建

python数据转换为RDD

注这里展示示例代码，可以自己敲一遍然后运行验证

# 将Python转化为rdd数据
from pyspark import SparkContext

# 生成SparkContext类对象
sc = SparkContext()

# 使用sc对象的下的parallelize方法将python数据转化为rdd
# int_data = 123  不能转化
str_data = 'abc'
list_data = [1,2,3]
dict_data = {'a':1,'b':2}
tuple_data = (1,2,3)
set_data = {1,2,3}

# 一般使用列表类型转化为rdd
rdd = sc.parallelize(python对象)

# 使用rdd方法计算

# 查看转化后的rdd数据
res = rdd.collect()
print(res)

文件数据转化为RDD

from pyspark import SparkContext

sc = SparkContext()


# 读取hdfs上文件数据转为rdd

rdd1 =sc.textfile('hdfs://node1:8080/data')
rdd2 =sc.textfile('/data/words.txt')

rdd3  = sc.textFile('file:///root/data')
rdd4  = sc.textFile('file:///root/data/employees.json')

#查看数据
print（rdd1）
print（rdd2）
print（rdd3）
print（rdd4）

RDD的分区

python数据转化时分区数制定

# rdd的分区数指定
from pyspark import SparkContext


# 生成SparkContext类对象
sc = SparkContext()

# python转化时指定分区数
data = [1,2,3,4,5,6]
# numSlices指定分区数
rdd = sc.parallelize(data, numSlices=8)
# glom()按照分区查看数据
res = rdd.glom().collect()
print(res)

读取文件数据时进行分区数指定

from pyspark import SparkContext


# 生成SparkContext类对象
sc = SparkContext()

# 文件数据指定分区数
rdd  = sc.textFile('/data', minPartitions=4)

# glom()按照分区查看数据
res = rdd.glom().collect()
print(res)

使用glom前后对比

小文件数据转换为RDD

在一个目录下，有多个文件，如果文件的大小不够一个块的大小，一个文件就对应一个分区，文件超过一个块，那就一个block（128M）块对应一个分区。目录下都是小文件，那么读取目录下的文件数据，会对应很多个分区。一个分区对应一个task线程，当小文件过多时，会占用大量的线程，造成资源浪费,使用wholeTextFiles方法可以解决。该方法会现将读取到的数据合并在一起，然后重新进行分区。

# rdd的分区数指定
from pyspark import SparkContext

# 生成SparkContext类对象
sc = SparkContext()

# 文件数据指定分区数  ,读取目录下的多个小文件
rdd  = sc.textFile('/data')
# glom()按照分区查看数据
res = rdd.glom().collect()

# 将小文件合并 一个分区数据 1000条数据在一个分区，对应一个task线程
print(res)
print(len(res))

# wholeTextFiles读取目录中的多个小文件数据
rdd2= sc.wholeTextFiles('/data')
res = rdd2.glom().collect()
print(res)
print(len(res))