spark
daxuddaai
这个作者很懒,什么都没留下…
展开
-
spark源码之stage的创建与划分
大致的逻辑图,详细过程待写原创 2021-04-10 09:32:02 · 133 阅读 · 0 评论 -
spark源码之shuffle.write分析
先把大概逻辑描述下,详细过程待写......原创 2021-04-09 22:15:03 · 147 阅读 · 0 评论 -
spark源码之RDD源码分析
RDD的五大特性: 1.partitions_:partition数组 2.dependencies_:Dependency序列 3. compute:计算函数 4. Partitioner:分区器 5. Preferred Locations:存储存取每个Partition的优先位置 一、dependency 在RDD中dependencies_是专门用来存储当前RDD的父dependency序列。 dependencies方法,用于获取当前RDD的所有依赖的序列,源码如下: pack原创 2021-04-07 17:12:10 · 489 阅读 · 2 评论 -
SparkSQL:codegen
参考:https://blog.csdn.net/weixin_45906054/article/details/103249183?utm_medium=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.wap_blog_relevant_pic&depth_1-utm_source=distribute.wap_relevant.none-task-blog-BlogCommendFromMachin原创 2020-12-11 19:38:25 · 742 阅读 · 0 评论 -
DAG有向无环图的构建和划分stage
Directed Acyclic Graph 有向无环图 他是按照程序中的rdd之间的依赖关系,生成了一张有方向无环图 1为什么要划分stage(调度阶段)? 由于一个job任务中可能有大量的宽窄依赖,由于窄依赖不会产生shuffle,宽依赖会产生shuffle。后期划分完stage之后,在同一个stage中只有窄依赖,并没有宽依赖,这些窄依赖对应的task就可以相互独立的取运行。划分完stage之后,它内部是有很多可以并行运行task。 2.如何划分stage?(宽依赖划分) (1)生成DAG有原创 2020-12-09 20:32:20 · 1089 阅读 · 0 评论 -
spark-yarn配置信息
conf/spark-env.sh export JAVA_HOME=/opt/module/jdk1.8.0_144 export YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop spark-defaults.conf 配置日志存储路径 spark.eventLog.enabled true spark.eventLog.dir hdfs://linux1:8020/directory 需要启动hadoop集群,.原创 2020-10-21 20:58:10 · 236 阅读 · 0 评论