Spark学习笔记(三)-RDD(弹性分布式数据集)

最新推荐文章于 2023-04-20 22:00:00 发布

蓝天的IT生涯

最新推荐文章于 2023-04-20 22:00:00 发布

阅读量2.2k

点赞数

分类专栏： spark 文章标签： spark

spark 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

RDD是一些对象的只读集合, 被划分到多台机器上, 并且在某个划分块丢失之后可以重建. 用户可以显式的把RDD缓存在内存中, 方便在类似于Map-Reduce的并发操作中重用, 这也是为什么Spark比较适合处理迭代式Job的原因. RDD通过"血统"(lineage)的概念来保证容错性, 当RDD的一个划分块丢失之后, 该RDD知道怎样从其他的RDD中重建该划分块. RDD中的元素不需要被存储在物理设备上, 每个RDD都有一个句柄, 其中包含了如何从其他存储在物理设备上的数据计算该RDD的信息.

1. RDD的类型

RDD有两种类型: 并行集合和Hadoop数据集. 可以在两种类型上执行相同的方法.

1.1 并行集合(Parallelized Collections).

在一个Scala集合(一个 Seq 对象)上调用 SparkContext 的 parallelize() 方法就可以得到并行集合. 该集合中的元素会被拷贝, 构成一个分布式的数据集, 然后可以对其进行并发的操作. 下例为基于一个 array 构造并发集合:

 
         1 
       
         2 
       
         3 
       
         4 
       
         5 
       
        scala 
        > 
          
        val 
          
        data 
          
        = 
          
        Array 
        ( 
        1 
        , 
          
        2 
        , 
          
        3 
        , 
          
        4 
        , 
          
        5 
        ) 
       
        data 
        : 
          
        Array 
        [ 
        Int 
        ] 
          
        = 
          
        Array 
        ( 
        1 
        , 
          
        2 
        , 
          
        3 
        , 
          
        4 
        , 
          
        5 
        ) 
       
        scala 
        > 
          
        val 
          
        distData 
          
        = 
          
        sc 
        . 
        parallelize 
        ( 
        data 
        ) 
       
        distData 
        : 
          
        spark 
        . 
        RDD 
        [ 
        Int 
        ] 
          
        = 
          
        spark 
        . 
        ParallelCollection 
        @10d13e3e

在构造完成之后, 这个分布式的数据集就可以进行并行的操作. 比如调用 distData.reduce(_ + _) 来对数组中的元素求和.

并行集合的一个重要的参数是数据集被切片的个数. Spark会对每个切片运行一个task. 通常来说对于每个CPU需要有2-4个切片. 一般情况下, Spark会根据集群的状况自动设置数据集的切片数, 但是可以通过 sc.parallelize(data,10) 来设置.

1.2 Hadoop数据集

Spark可以基于在HDFS(或者AmazonS3, Hypertable, HBase)等分布式文件系统创建分布式数据集. Spark支持文本文件, Sequence File等Hadoop输入格式.

对于文本文件, 可以使用 SparkContext 的 textFile() 方法. 该方法的参数为文本文件的URI:

一旦创建完毕, 可以在 distFile 上执行并行操作: distFile.map(_.size).reduce(_ + _)

默认情况下, Spark会为文本文件的每一个块创建一个切片, 也可以像之前的并发数据集一样设置切片数, 但是切片的个数不能少于文件块的个数.

对于Sequence File, 可以使用 SparkContext 的 sequenceFile[K,V] 方法, 其中K和V是文件中的键与值的类型.

2. RDD的操作

RDD支持两种操作: transformation和action.

transformation会基于一个RDD生成一个新的RDD. Spark中的transformation是惰性的(lazy), 亦即transformation不会立刻计算出其结果, 只有当一个action需要在transformation生成的RDD上得到结果并返回给驱动程序时才会计算. 这种设计使得Spark可以更加高效的运行: 对于一个由map生成, 并且会执行一个reduce操作的数据集, 只有reduce的结果需要返回给驱动程序, 而不是该数据集.

默认情况下, 每当你需要在一个被transformation生成的数据集上执行操作时, 该数据集都需要被重新计算. 但是, 我们可以把该数据集用 persist 或者 cache 方法persist在内存中, 这样这个在下次访问该数据集时速度会大大加快.

action会返回驱动程序 (driver program)一个值. 驱动程序实现了应用程序高层控制流, 并且会并行的执行操作.

常用的transformation操作有

map(func) 对输入并行数据集中的每个元素都执行func, 生成新的并行数据集
filter(func) 对输入并行数据集中的每个元素, 如果func返回值为 trus , 则在输出并行数据集中保留该元素, 否则过滤.
flatMap(func) 类似于map, 只是每个输入元素可能被映射到0个或者多个输出元素(所以func用该返回一个 Seq 而不是单个元素)
mapPartitions(func) 类似于map, 但是是在RDD的每个划分块上单独执行. 所以func的类型为 Iterator[T] =>Iterator[U]
mapPartitionsWithSplit(func) 类似于mapPattitions, 但是会在func的参数中加一个整数来表示split块的索引 (Int,Iterator[T]) => Iterator[U]
sample(withReplacement, fraction, seed) 从数据中抽样fraction比例的样本.
union(otherDataset) 合并输入数据集和参数中指定的数据集
distinct([numTasks]) 返回一个数据集, 只包含输入数据集中互不相同的元素
groupByKey([numTasks]) 当输入数据集包含的是(K,V)对时, 返回(K, Seq[V]), 默认numTasks为8
reduceByKey(func, [numTasks]) 当输入数据集包含的是(K,V)对时, 返回(K, V), 相当于是先对(K, V)执行groupByKey, 再对每个K的Seq[V]执行func.
sortByKey([ascending], [numTasks]) 按照K排序, 其中K需要实现Ordered
join(otherDataset, [numTasks]) 将输入数据集(K, V)和另外一个数据集(K, W)进行Join, 得到(K, (V, W))
cogroup(otherDataset, [numTasks]) 将输入数据集(K, V)和另外一个数据集(K, W)进行cogroup, 得到一个格式为(K, Seq[V], Seq[W])的数据集
cartesian(otherDataset) 做笛卡尔积: 对于数据集T合U, 得到(T, U)格式的数据集

常用的action操作有

reduce(func) 对数据集的所有元素执行聚集(func)函数, 该函数必须是可交换的
collect() 将数据集中的所有元素以一个array的形式返回
count() 返回数据集中元素的个数
first() 返回数据集中的第一个元素, 类似于take(1)
take(n) 返回一个包含数据集中前n个元素的数组, 当前该操作不能并行.
takeSample(withReplacement, num, seed) 返回包含随机的num个元素的数组.
saveAsTextFile(path) 把数据集中的元素写到一个文本文件. Spark会对每个元素调用toString方法来把每个元素存成文本文件的一行.
saveAsSequenceFile(path) 把数据集中的元素存成Hadoop SequenceFile的格式. 只有当RDD的格式为键值对时才可以.
countByKey() 只有当RDD的格式为键值对时才可以. 返回一个(K, Int)的map, Int为K的个数.
foreach(func) 对数据集中的每个元素都执行func.

3. RDD的持久化

Spark中, 用户可以显式的把RDD缓存(persist, 或cache)在内存中. 当缓存一个RDD时, 每个节点都会把计算出的那个切片存储在内存中, 并且会在之后的action中重用这个切片. 这样之后的action就会更快.

可以调用RDD的 persist() 或者 cache() 来进行缓存. 当该RDD第一次被计算出来时, 就会存储在内存中. 这种缓存是由容错性的, 如果RDD的某个块丢失了, 则会根据产生这个RDD的transformation来生成这个块.

每个RDD可以使用不同的存储级别, 可以把这个数据集存储在硬盘, 或者以序列化的Java对象的形式存储在内存中, 或者在多个节点上进行备份. 可以通过向 persist() 方法传递 org.apche.spark.storage.StorageLevel 来选择存储级别. cache() 方法相当于是选择了 StorageLevel.MEMORY_ONLY (以序列化的对象的身份存储在内存中). 以下是完整的存储级别

MEMORY_ONLY 以反序列化Java对象的心事存储在内存, 如果RDD太大不能完全放在内存, 则多余的一些划分块不会被存储, 会在需要时现生成
MEMORY_AND_DISK 以反序列化Java对象的心事存储在内存, 如果RDD太大不能完全放在内存, 则把多余的划分块存储在硬盘
MEMORU_ONLY_SER 以序列化的Java对象的形式存储在内存. 这样比比反序列化Java对象回省空间, 但是费CPU
MEMORY_AND_DISK_SER 顾名思义, 以序列化Java对象的行书存储在内存, 多余的块存储在硬盘上
DISK_ONLY 把RDD存储在硬盘
MEMORY_ONLY_2, MEMORY_AND_DISK_2 与以上的存储级别类似, 但是会备份2份

关于选择存储级别的一些思路

Spark存储级别是为了在内存使用和CPU效率之间做权衡.

最好使用默认的存储级别(MEMORY_ONLY), 这是CPU效率最好的选项, 使RDD上的操作尽可能快
如果RDD比较大不能存储在内存, 则尝试MEMORY_ONLY_SER, 并且选择一个块的序列化库, 使得既能节省空间, 又不太影响速度.
除非计算数据集的代价很高或者生成该数据集会过滤掉很多数据, 否则不要把数据存储在硬盘, 因为重新计算一个划分块比从硬盘中读取要快很多.
当需要快速容错时, 使用带备份的存储级别. 虽然所有的存储级别都可以通过重新计算丢失的数据来达到容错, 但是备份可以使得无需重新计算就能继续在RDD上执行task.
转载：http://www.kemaswill.com/system/spark/spark%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%E4%B8%89-rdd%E5%BC%B9%E6%80%A7%E5%88%86%E5%B8%83%E5%BC%8F%E6%95%B0%E6%8D%AE%E9%9B%86/