Spark
Spark相关博文
@阿证1024
这个世界上最好的语言就是你的实力。
展开
-
Spark----SparkCore RDD缓存
RDD通过persist方法或cache方法可以将前面的计算结果缓存,默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。 但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 通过查看源码发现cache最终也是调用了persist方法,默认的存储级别都是仅在内存存储一份,Spark的存储级别还有好多种,存储级别在object StorageLevel中定义的。 在存储级别的末尾加上“_2”来把持久化数据存为原创 2020-08-26 15:57:45 · 152 阅读 · 0 评论 -
Spark----SparkCore 如何序列化自定义RDD操作
在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。 当我们自定义一个RDD操作类的时候,通常需要在两个地方考虑序列化,分别是:传递一个方法、传递一个属性。 如何传递一个方法? 1、我们定义一个RDD工具类: class Search() { val query: String = "h" // 过滤出包含字符串的数据 def原创 2020-08-26 15:38:54 · 311 阅读 · 0 评论 -
Linux下搭建Spark本地模式(Local模式)
1.上传文件后解压 执行命令: tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/ 结果如图: 2. 改名 执行命令: mv spark-2.1.1-bin-hadoop2.7/ spark 3. 官方求PI案例 执行命令: bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --executor-memory 1G \ --total-executor-cores原创 2020-07-12 20:13:39 · 832 阅读 · 0 评论 -
Spark----SparkCore RDD详解
1. 什么是RDD? RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 2. RDD的属性 1)一组分区(Partition),即数据集的基本组成单位 2)一个计算每个分区的函数 3)RDD之间的依赖关系 4)一个Partitioner,即RDD的分片函数 5)一个列表,存储存取每个Partition的优先位置(preferred location) 3. RD原创 2020-08-25 09:07:46 · 205 阅读 · 0 评论