Spark零基础入门第三课
学习是在快乐中进行的,每天放松一下。
1. Spark作业调度方式
上一课我们学习到了spark的 第一个程序worldcount的编写运行,那么今天我们先接着上次没有说完的一个spark 任务的调度方式在集群中。
spark作业的调度方式有三种:
1.local:本地运行提交作业
2.standalone:spark集群自己调度作业
3.yarn:使用yarn集群调度资源调度作业
提交运行时发生此错误:
解决:需要修改yarn-site.xml配置文件,关闭虚拟内存的检测 加上如下内容:
yarn.nodemanager.pmem-check-enabled
false
yarn.nodemanager.vmem-check-enabled
false
1.1 cluster 和 client 的区别
提交配置spark submit脚本时 里面配置中cluster 和 Client 的区别是什么?
cluster : sparkcontext 创建在yarn集群中
client :sparkcontext 创建在本地
建议: 在生产中建议使用cluster,在测试中使用client
2. spark 核心功能介绍:
之前学习了基本名词,worldcount和运行方式,然后我们来说说spark的核心功能是什么: