Spark
文章平均质量分 53
houmou
人生就是困难重重,问题不断,喜忧参半。——斯科特·派克
展开
-
Spark平台上的JavaWordCount示例
Spark平台上的JavaWordCount示例原创 2016-01-17 21:33:40 · 6457 阅读 · 0 评论 -
运行python版本的Spark程序
使用 spark-submit 解释执行python脚本使用 python 解释执行python脚本引入pyspark和py4j这两个模块原创 2016-03-18 17:59:42 · 11376 阅读 · 0 评论 -
每次进步一点点——spark中cache和persist的区别
昨天面试被问到了cache和persist区别,当时只记得是其中一个调用了另一个,但没有回答出二者的不同,所以回来后重新看了源码,算是弄清楚它们的区别了。cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间。原创 2016-09-09 23:35:34 · 42228 阅读 · 4 评论 -
每次进步一点点——Spark 中的宽依赖和窄依赖
Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子RDD分区通常对应原创 2016-09-13 23:54:54 · 31374 阅读 · 4 评论 -
Hadoop/Spark平台搭建
包括Hadoop/Spark大多数组件的搭建过程,作为记录原创 2016-09-04 15:35:10 · 2265 阅读 · 0 评论