- 博客(4)
- 资源 (3)
- 收藏
- 关注
原创 Spark RDD 缓存
RDD缓存是Spark的一个重要特性,也是Spark速度快的原因之一,RDD在内存持久化或缓存之后,每一个节点都将把计算的分区结果留在内存中,并再对RDD进行其他的Action动作重用,这样后续的动作就会更快; 查看StorageLevel可以看到缓存的级别/** * Various [[org.apache.spark.storage.StorageLevel]] defined and ut
2017-08-27 20:11:26 1237
原创 Spark RDD的transforms转换
在RDD中的转换都是延迟的,惰性的,意思是说,不会说执行到这行转换代码计算出结果,比如下面的、当我debug代码运行到rdd2的时候,不知道rdd2的值是什么,只知道类型 最开始只是记住这些转换的来源,即上一个动作,只有当发生一个要求返回结果给Driver时,这些转换才会被执行,这样让rdd更有效率,如上面,只有当执行rdd2.collect,这样要求返回结果到driver端时,rdd
2017-08-27 12:00:25 780
转载 Google大数据三大论文-中文版
[Google Bigtable中文版][http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable%E4%B8%AD%E6%96%87%E7%89%88_1.0.pdf]
2017-08-26 17:16:50 1382 1
原创 Spark RDD的定义和介绍
RDD是resilient distributed dataset的缩写即弹性分布式数据集 ,是Spark的核心也是基本所在 RDD是只读的、分区记录的集合,它只能基于在稳定物理存储中的数据和其他已有的RDD执行特定的操作来创建,它是逻辑集中的实体,在集群中的多台机器上进行了数据的分区,通过RDD的依赖关系形成Spark的调度顺序,形成整个Spark行分区RDD有以下几种创建方式:从hdfs文件
2017-08-16 23:12:52 1388
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人