
spark
我们始终是路人
这个作者很懒,什么都没留下…
展开
-
Spark 安装配置启动,蒙特·卡罗算法求PI
Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了内存内运算技术,能在数据尚未写入硬盘时即在内存内分析运算。Spark在内存内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark也能快上10倍速度。[原创 2018-01-20 11:20:24 · 445 阅读 · 0 评论 -
Spark RDD的依赖关系
RDD和它依赖的父RDD(s)的关系有两种不同的类型即 窄依赖(narrow dependency) 宽依赖(wide dependency)。 窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用 总结:窄依赖我们形象的比喻为独生子女 宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition 总结:窄依赖我们形象的比原创 2018-01-20 11:54:31 · 245 阅读 · 0 评论 -
Spark RDD缓存方式
RDD通过persist方法或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 System.setProperty("hadoop.home.dir", "G:\\hadoop-common-2.2.0-bin") val conf = new Spar原创 2018-01-20 12:04:20 · 2571 阅读 · 0 评论 -
spark checkpoint
/** * Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint * directory set with `SparkContext#setCheckpointDir` and all references to its parent * RDDs will be re原创 2018-01-20 12:15:23 · 210 阅读 · 0 评论 -
Spark 广播规则
原文: https://www.kancloud.cn/kancloud/spark-internals/45238 顾名思义,broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多,比如 driver 上有一张表,其他节点上运行的 task 需要 lookup 这张表,那么 driver 可以先把这张表 copy 到这些节点,这样 task 就可以在本地查表了。如何实转载 2018-01-20 12:25:16 · 591 阅读 · 0 评论