- 博客(6)
- 收藏
- 关注
原创 Spark源码解析4 - Shuffle过程分析
1.Shuffle过程ShuffleMapTask -runTask *writer.write // 向磁盘上写文件 // 数据 >val partitionLengths = sorter.writePartitionedFile(blockId, tmp) // 索引 >shuffleBlockResolver.writeIndexFileAndCommit(dep.shuffleId, mapId, partitionLengths, tmp)2
2020-09-10 23:48:48 105
原创 Spark源码解析3 - 提交Task到Executor
==提交Task到Executor=App->Job->Stage->Task注:这里Driver、Executor已经都准备好了。1.Driver端任务提交org.apache.spark.scheduler.DAGScheduler--submitMissingTasks //每一个Task对应处理一个分区的数据,将多个Task放到TaskSet中进行提交 --taskScheduler.submitTasks(new TaskSet) //在Task之前,创建了T
2020-09-10 23:45:39 167
原创 Spark源码解析2 - Job以及任务调度过程
App->Job->Stage->Task细节自己总结,分清各自数量与什么有关此博客长期更新,感谢关注~less is more
2020-09-10 23:38:43 127
原创 Spark源码解析1 - 将App部署到Yarn服务器
1.执行提交应用的命令// An highlighted blockbin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \ (client(默认) <=> cluster)./examples/jars/spark-examples_2.11-2.4.5.jar \ 路径10 \ 2.底层运行bin/spark-class or
2020-09-10 23:34:58 100
原创 关于Maven乱码问题
Maven控制台出现乱码问题idea通常设置为UTF-8,而Maven的默认平台编码是GBK,因此可以填入:-Dfile.encoding=GBK注:这里若是UTF-8依然乱码此博客长期更新,感谢关注~less is more
2020-07-29 09:39:02 155
原创 hadoop各类问题综述——windows10下配置hadoop
1.org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0这个是linux下的hadoop包在win10下不能兼容,编译源码又太费时,因此可以选择将下面这两个文件1)hadoop.dll放在C:\Windows\System32下2)winutils.exe放在win10 hadoop安装路径的bin目录下重启eclipse,解决(注:此文件win10 x64兼容,别的系统未测试)下载连接:包含hadoop2.
2020-06-28 17:33:18 292
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人