Spark
Nekou_
1.2.3.4
展开
-
Spark2.4.0源码编译支持hadoop-2.6.0-cdh5.7.0
软件包JDK1.8.0_45Hadoop-2.6.0-cdh5.7.0scala-2.11.8Hadoop-2.6.0-cdh5.7.0apache-maven-3.3.9环境变量配置export JAVA_HOME=/home/hadoop001/app/jdk1.8.0_45export PATH=$JAVA_HOME/bin:$PATHexport HADOOP_HOM...原创 2019-01-30 00:09:41 · 642 阅读 · 0 评论 -
SparkCore - RDD & 常用算子
RDD概述RDD是弹性分布式数据集,是Spark的基石,是Spark最基本的数据抽象,它代表一个不可变、只读的、被分区的数据集。RDD的五大特性A list of partitions 当RDD存储着一系列的数据时,会构建多个partition来存储这些数据,不同的partition会在不同的地址,并且,在Spark中一个数据集有多少个partition就会有多少个taskA...原创 2019-04-18 19:56:33 · 183 阅读 · 0 评论 -
Spark - RDD持久化
概述缓存是用Spark构建迭代算法的关键,通过缓存,Spark避免了RDD上的重复计算,能够极大的提升计算速度,在Spark程序的调优中就会考虑到RDD的持久化机制。对于迭代算法和快速交互式应用来说,RDD持久化是非常重要的。Spark的持久化机制是自动容错的,如果持久化的RDD的任何partition丢失了,那么Spark会自动通过其源RDD,使用transformation操作重新计算par...原创 2019-04-18 19:56:02 · 188 阅读 · 0 评论 -
Spark - 广播变量 & 累加器
广播变量 broadcast variable1、广播变量的意义如果我们要在分布式计算里面分发大对象,例如:字典,集合,黑白名单等,这个都会由Driver端进行分发,一般来讲,如果这个变量不是广播变量,那么每个task就会分发一份,这在task数目十分多的情况下Driver的带宽会成为系统的瓶颈,而且会大量消耗task服务器上的资源,如果将这个变量声明为广播变量,那么只是每个executor拥...原创 2019-04-18 19:56:19 · 212 阅读 · 0 评论 -
Spark - 宽依赖 & 窄依赖
宽依赖:指一个父RDD的Partition会被多个子RDD的Partition所使用,例如,groudByKey,ReduceByKey,sortByKey等操作都会产生宽依赖。窄依赖:指每个父RDD的一个Partition最多被子RDD的一个Partition所使用,例如,Map,filter,union等操作都会产生窄依赖。需要注意的是,如果两个RDD在进行join操作时,一个RDD...原创 2019-04-18 19:56:10 · 448 阅读 · 0 评论