Spark
Vincer_DB
这个作者很懒,什么都没留下…
展开
-
SparkStreaming读取配置了HDFS高可用某目录下的文件并写入到hive
//创建sparkSession val sparkConf = new SparkConf().setAppName("dwd_member_import").setMaster("local[*]") val sparkSession = SparkSession.builder().config(sparkConf).enableHiveSu...原创 2019-11-07 10:19:16 · 510 阅读 · 0 评论 -
hadoop和spark的shuffle异同点
从 high-level 的角度来看,两者并没有大的差别。两者都是将 mapper(Spark 里是 ShuffleMapTask)的输出进行 partition,不同的 partition 送到不同的 reducer(Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask,也可能是 ResultTask)。Reducer 以内存作缓冲区,边 shuffl...原创 2019-10-15 15:34:01 · 690 阅读 · 0 评论 -
Spark编程中函数的传递
Spark 进行编程的时候, 初始化工作是在 driver端完成的, 而实际的运行程序是在executor端进行的. 所以就涉及到了进程间的通讯,下面的实例演示函数的传递import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject SerDemo { def mai...原创 2019-09-26 16:09:56 · 183 阅读 · 0 评论 -
Spark中为RDD设置检查点
import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object CheckPointDemo { def main(args: Array[String]): Unit = { // 要在SparkContext初始化之前设置, 都在无效 ...原创 2019-09-26 16:39:25 · 294 阅读 · 0 评论 -
spark的start-master.sh(Master 启动脚本)分析
#!/usr/bin/env bash# Starts the master on the machine this script is executed on.#在执行此脚本的计算机上启动主机。#第一步:判断是否有SPARK_HOME的环境变量,如果没有,则将当前spark所在目录定为SPARK_HOMEif [ -z "${SPARK_HOME}" ]; then expor...原创 2019-09-28 18:21:42 · 1717 阅读 · 0 评论 -
Spark的启动部分源码解析(org.apache.spark.deploy.master.Master,org.apache.spark.deploy.master.Worker)
Master入口函数: // 启动 Master 的入口函数 def main(argStrings: Array[String]) { Utils.initDaemon(log) val conf = new SparkConf // 构建用于参数解析的实例 --host hadoop102 --port 7077 -...原创 2019-09-28 19:10:27 · 537 阅读 · 0 评论