![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 77
tuuuuski
技术交流qq 592297182
展开
-
Spark RDD宽依赖和窄依赖
Spark中RDD是相互依赖的,依赖关系分宽依赖和窄依赖原创 2020-03-14 15:11:35 · 213 阅读 · 0 评论 -
Spark RDD常见转换和动作
Spark在提交后通过数据输入形成RDD,然后就可以通过转换算子(如filter,map)对数据进行操作并将RDD转换为新的RDD,然后通过action算子,出发Spark提交作业原创 2020-01-17 12:26:24 · 387 阅读 · 0 评论 -
Spark 获取jdbc Rdd
Spark中获取Jdbc的RDD有两种方式:一种是内置了JdbcRDD类,通过new该类就能对通过Jdbc读取数据并且转换成Rdd,另一种是通过SparkSQL中SQLContext jdbc方法获取DataFrame,然后其中第一种方法在1.3和1.5基本一样,其构造函数如下:class JdbcRDD[T: ClassTag]( sc: SparkContext,原创 2016-09-19 22:57:41 · 1326 阅读 · 0 评论 -
Spark程序进行单元测试-使用scala
Spark 中进行一些单元测试技巧:最近刚写了一点Spark上的单元测试,发现一些小技巧,示例有是一些简单的伪代码,有问题或者不对的欢迎指正,有其他也欢迎补充rdd测试spark程序一般从集群中读取数据然后通过rdd进行转换,这其中涉及到集群,每次修改bug,上传到集群再运行测试,代价还是挺大;所以尽可能先本地进行单元测试,以减少在集群上运行时错误,特别是map等各种tranforms动作的逻辑错误原创 2016-09-24 14:42:05 · 6683 阅读 · 0 评论 -
Spark RDD的定义和介绍
RDD是resilient distributed dataset的缩写即弹性分布式数据集 ,是Spark的核心也是基本所在 RDD是只读的、分区记录的集合,它只能基于在稳定物理存储中的数据和其他已有的RDD执行特定的操作来创建,它是逻辑集中的实体,在集群中的多台机器上进行了数据的分区,通过RDD的依赖关系形成Spark的调度顺序,形成整个Spark行分区RDD有以下几种创建方式:从hdfs文件原创 2017-08-16 23:12:52 · 1374 阅读 · 0 评论 -
Spark RDD的transforms转换
在RDD中的转换都是延迟的,惰性的,意思是说,不会说执行到这行转换代码计算出结果,比如下面的、当我debug代码运行到rdd2的时候,不知道rdd2的值是什么,只知道类型 最开始只是记住这些转换的来源,即上一个动作,只有当发生一个要求返回结果给Driver时,这些转换才会被执行,这样让rdd更有效率,如上面,只有当执行rdd2.collect,这样要求返回结果到driver端时,rdd原创 2017-08-27 12:00:25 · 756 阅读 · 0 评论 -
Spark RDD 缓存
RDD缓存是Spark的一个重要特性,也是Spark速度快的原因之一,RDD在内存持久化或缓存之后,每一个节点都将把计算的分区结果留在内存中,并再对RDD进行其他的Action动作重用,这样后续的动作就会更快; 查看StorageLevel可以看到缓存的级别/** * Various [[org.apache.spark.storage.StorageLevel]] defined and ut原创 2017-08-27 20:11:26 · 1220 阅读 · 0 评论