2017年08月_tuuuuski

09月 08月 07月

原创 Spark RDD 缓存

RDD缓存是Spark的一个重要特性，也是Spark速度快的原因之一，RDD在内存持久化或缓存之后，每一个节点都将把计算的分区结果留在内存中，并再对RDD进行其他的Action动作重用，这样后续的动作就会更快；查看StorageLevel可以看到缓存的级别/** * Various [[org.apache.spark.storage.StorageLevel]] defined and ut

2017-08-27 20:11:26 1237

原创 Spark RDD的transforms转换

在RDD中的转换都是延迟的，惰性的，意思是说，不会说执行到这行转换代码计算出结果，比如下面的、当我debug代码运行到rdd2的时候，不知道rdd2的值是什么，只知道类型最开始只是记住这些转换的来源，即上一个动作，只有当发生一个要求返回结果给Driver时，这些转换才会被执行，这样让rdd更有效率，如上面，只有当执行rdd2.collect，这样要求返回结果到driver端时，rdd

2017-08-27 12:00:25 780

转载 Google大数据三大论文-中文版

[Google Bigtable中文版][http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable%E4%B8%AD%E6%96%87%E7%89%88_1.0.pdf]

2017-08-26 17:16:50 1382 1

原创 Spark RDD的定义和介绍

RDD是resilient distributed dataset的缩写即弹性分布式数据集，是Spark的核心也是基本所在 RDD是只读的、分区记录的集合，它只能基于在稳定物理存储中的数据和其他已有的RDD执行特定的操作来创建，它是逻辑集中的实体，在集群中的多台机器上进行了数据的分区，通过RDD的依赖关系形成Spark的调度顺序，形成整个Spark行分区RDD有以下几种创建方式：从hdfs文件

2017-08-16 23:12:52 1388

免安装Xshell v5.0.zip

2021-05-14

CSS 参考手册

CSS 参考文档，非常详细的讲解各个css的属性用法等

2012-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人