1、基于yarn-client模式
(1)Hadoop集群启动,NodeManager(NM)向ResourceManager(RM)通信,汇报各自资源,RM掌握集群资源
(2)client上提交spark应用,同时启动Driver,client向RM申请资源,启动ApplicationMaster(AM)
(3)RM在随机选择集群中的一个NM,来启动AM,AM向RM申请资源启动Executor,RM分配资源给NM启动Executor
(4)Executor通知Driver,Driver发送task给Executor,Executor执行完成,返回结果给Driver
2、基于yarn-cluster模式
yarn-cluste和yarn-client不同的是,client提交任务后,不会再启动Driver,而是RM在集群中找一台节点,即NM上启动Driver,把Driver分散在集群节点中运行,这样避免了client上提交多个任务而引起的网络流量激增问题。client上没有Driver 进程,也看不到task执行情况,以及接收不到输出结果。
---------------------
作者:未知的风fly
来源:CSDN
原文:https://blog.csdn.net/lzxlfly/article/details/80979144
版权声明:本文为博主原创文章,转载请附上博文链接!