spark持久化

最新推荐文章于 2024-05-23 10:59:51 发布

青蛙小王子

最新推荐文章于 2024-05-23 10:59:51 发布

阅读量577

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/walkcode/article/details/104291805

版权

日常开发中每次读取大文件都比较费时费力，而每次的重复读取都是资源的浪费，针对这些问题spark也提供了持久化的解决方案，帮助我们解决诸如此类的效率问题，先来看一段我搜集到的资料：

RDD 持久化

Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速度会加速 10 倍）。缓存是迭代算法和快速的交互式使用的重要工具。

RDD 可以使用 persist() 方法或 cache() 方法进行持久化。数据将会在第一次 action 操作时进行计算，并缓存在节点的内存中。Spark 的缓存具有容错机制，如果一个缓存的 RDD 的某个分区丢失了，Spark 将按照原来的计算过程，自动重新计算并进行缓存。

在 shuffle 操作中（例如 reduceByKey），即便是用户没有调用 persist 方法，Spark 也会自动缓存部分中间数据。这么做的目的是，在 shuffle 的过程中某个节点运行失败时，不需要重新计算所有的输入数据。如果用户想多次使用某个 RDD，强烈推荐在该 RDD 上调用 persist 方法。

存储级别

每个持久化的 RDD 可以使用不同的存储级别进行缓存，例如，持久化到磁盘、已序列化的 Java 对象形式持久化到内存（可以节省空间）、跨节点间复制、以 off-heap 的方式存储在 Tachyon。这些存储级别通过传递一个 StorageLevel 对象给 persist() 方法进行设置。
详细的存储级别介绍如下：

    MEMORY_ONLY : 将 RDD 以反序列化 Java 对象的形式存储在 JVM 中。如果内存空间不够，部分数据分区将不再缓存，在每次需要用到这些数据时重新进行计算。这是默认的级别。
    MEMORY_AND_DISK : 将 RDD 以反序列化 Java 对象的形式存储在 JVM 中。如果内存空间不够，将未缓存的数据分区存储到磁盘，在需要使用这些分区时从磁盘读取。
    MEMORY_ONLY_SER : 将 RDD 以序列化的 Java 对象的形式进行存储（每个分区为一个 byte 数组）。这种方式会比反序列化对象的方式节省很多空间，尤其是在使用 fast serializer时会节省更多的空间，但是在读取时会增加 CPU 的计算负担。
    MEMORY_AND_DISK_SER : 类似于 MEMORY_ONLY_SER ，但是溢出的分区会存储到磁盘，而不是在用到它们时重新计算。
    DISK_ONLY : 只在磁盘上缓存 RDD。
    MEMORY_ONLY_2，MEMORY_AND_DISK_2，等等 : 与上面的级别功能相同，只不过每个分区在集群中两个节点上建立副本。
    OFF_HEAP（实验中）: 类似于 MEMORY_ONLY_SER ，但是将数据存储在 off-heap memory，这需要启动 off-heap 内存。

注意，在 Python 中，缓存的对象总是使用 Pickle 进行序列化，所以在 Python 中不关心你选择的是哪一种序列化级别。python 中的存储级别包括 MEMORY_ONLY，MEMORY_ONLY_2，MEMORY_AND_DISK，MEMORY_AND_DISK_2，DISK_ONLY 和 DISK_ONLY_2 。

上面的几个缓存级别是官网给出的，但是通过源码看，实际上一共有12种缓存级别

package com.debug;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.storage.StorageLevel;

/**
 * @author cry
 *RDD的持久化
 */
public class UseRDD02 {

	public static void main(String[] args) {
		SparkConf conf=new SparkConf();
		conf.setMaster("local");
		conf.setAppName("rddpersist");
		
		JavaSparkContext sc=new JavaSparkContext(conf);
		
		//读取字数统计txt文件
		JavaRDD<String> lines=sc.textFile("/home/cry/word1.txt");
		
		//lines=lines.cache();
		lines=lines.persist(StorageLevel.MEMORY_AND_DISK());
		
		lines.foreach(new VoidFunction<String>() {
		
			public void call(String line) throws Exception {
				System.out.println(line);
				
			}
		});
		
		sc.stop();

		
		

	}

}

这段代码没有对读取时间做打印输出，如有必要可以自己加上测试下

青蛙小王子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark持久化

日常开发中每次读取大文件都比较费时费力，而每次的重复读取都是资源的浪费，针对这些问题spark也提供了持久化的解决方案，帮助我们解决诸如此类的效率问题，先来看一段我搜集到的资料：RDD 持久化Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 ...
复制链接

扫一扫