Spark
gszhihan
这个作者很懒,什么都没留下…
展开
-
Spark Core 中的 Action 操作
Action算子的特点只有遇到action才会提交作业开始执行代码中都会有 sc.runJob(xxx)Action 算子操作collect返回一个包含 RDD 中所有元素的数组collect 会把所有数据收集到 Driver 端,所以如果数据量很大会报 OOM 异常scala> sc.parallelize(List(6, 7, 8, 9, 10)).collect...原创 2019-11-03 22:02:12 · 223 阅读 · 0 评论 -
Spark 中的 Ordering 和 Ordered
Scala中的 Ordering 和 Ordered首先来看一下 scala 中的 Ordering 和 Ordered 定义Orderingtrait Ordering[T] extends Comparator[T] with PartialOrdering[T] with Serializable继承了 java 中的 Comparator 接口,需要实现其中的 compare ...原创 2019-11-03 22:01:52 · 553 阅读 · 0 评论 -
Spark 中的 Transformation 操作
文章目录创建 RDD(parallelize & makeRDD)map & mapPartitions & mapPartitionsWithIndexmapValuesflatMapglomsamplefilterunion & intersection & subtractdistinctgroupByKey & reduceByKeygrou...原创 2019-10-27 16:51:43 · 622 阅读 · 0 评论 -
CentOS 7.2 环境编译 Spark-2.4.2
编译前准备一台能够联网的 CentOS 7.2 环境的机器JDK 1.8+spark-2.4.2.tgz 源码包开始编译解压源码包修改 make-distribution .sh修改 pom.xml# 解压源码包tar -xzvf spark-2.4.2.tgzcd spark-2.4.2# 修改 make-distribution.shvi dev/make-...原创 2019-08-05 21:13:52 · 210 阅读 · 0 评论 -
CentOS 7.2 环境编译 Azkaban-3.77.0
编译前准备一台能够联网的 CentOS 7.2 环境的机器JDK 1.8+Gitazkaban-3.77.0.tgz 源码包(release地址)开始编译解压源码包[hadoop@hadoop004 software]$ tar -xzvf azkaban-3.77.0.tar.gz编辑配置文件,修改distributionUrl,将提前下载好的gradle-4.6-a...原创 2019-09-22 19:48:40 · 215 阅读 · 0 评论