Spark
baidu_38284985
这个作者很懒,什么都没留下…
展开
-
Spark基础(安装及应用提交)
1、准备安装包 2、Spark Standalone 即独立模式 2.1、解压安装包到你安装的目录。 2.2、拷贝 conf 目录下的 slaves 文件,将 slave 节点的 hostname 写在文件中,每行一个。 2.3、拷贝 conf 目录下的 spark-env.sh 文件,将 SPARK_MASTER_HOST 和 SPARK_MASTER_PORT 指定。 2.4、...转载 2020-03-05 16:27:36 · 236 阅读 · 0 评论 -
Spark RDD
转载自 1、RDD 全称 弹性分布式数据集 Resilient Distributed Dataset 它就是一个 class。 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) ...转载 2020-03-05 14:34:46 · 247 阅读 · 0 评论 -
Spark
RDD编程模型 RDD运行规划图 注意:当以Cluster模式启动Spark程序时,需要把本地Driver端的Client杀掉,否则会占用本地内存,可能导致本地宕机 (可在spark-submit中加上spark.yarn.submit.waitAppCompletion=false) operator ...转载 2020-03-04 15:04:35 · 204 阅读 · 0 评论 -
SPARK配置调优
https://blog.csdn.net/chenxingzhen001/article/details/11835399转载 2019-10-21 10:53:22 · 104 阅读 · 0 评论 -
Spark2 operator
算子: 转换算子(transformation):懒加载,针对RDD操作 操作算子(Actions):即时执行,RDD转化为本地集合 即时执行的本地集合结果在Driver中 For Example: cogroup:类似groupby 两个RDD的公共字段,其他字段组装起来(通过数组) join:排列组合,类似groupby 两个RDD的所有字段 ...原创 2019-10-14 15:00:21 · 160 阅读 · 0 评论 -
Spark1 上下文
并行化,在driver中 SparkConf conf = new SparkConf().setAppName("AppName").setMaster("masterIP"); JavaSparkContext sc = new JavaSparkContext(conf); //SparkContext sc = new SparkContext(conf); sc.paralleliz...原创 2019-10-14 14:25:26 · 306 阅读 · 0 评论