1)我在哪里可以看到任务级别的详细信息?内部执行程序我没有看到任务分解,所以我可以看到切片对UI的影响 .
我不明白你的问题,因为从UI我们可以肯定看到分区的效果(或者你喜欢的切片) .
2)如何以编程方式查找上面的map函数的工作集大小?我假设它是n /切片(上面100000)
请详细说明您感兴趣的尺寸 . 如果你的意思是每个工作者消耗的内存量...每个Spark分区都有64MB所以...来自官方的Spark文档:
Spark prints the serialized size of each task on the master, so you can look at that to decide whether your tasks are too large; in general tasks larger than about 20 KB are probably worth optimizing.
3)执行程序运行的多个任务是在多个线程中顺序运行还是并行运行?
一个很好的来源是这个问题:
4)推理每个CPU 2-4片 . 我假设理想情况下我们应该调整SPARK_WORKER_INSTANCES以对应每个节点(在同构群集中)的核心数,以便每个核心获得自己的 Actuator 和任务(1:1:1)
主要目标不是让闲置的工作人员......一旦完成一项任务,在等待其他节点完成更长任务时总会有一些工作要做 . 如果(1:1:1), Worker 就会闲着 .