![d53562635254373c06b0ae7f3f30d97a.png](https://img-blog.csdnimg.cn/img_convert/d53562635254373c06b0ae7f3f30d97a.png)
背景
spark部署模型有以下几种:
1 Standalone独立模式,Spark原生的简单集群管理器,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统,使用Standalone可以很方便地搭建一个集群
2 Apache Mesos一个强大的分布式资源管理框架,它允许多种不同的框架部署在其上
3 Hadoop YARN统一的资源管理机制,在上面可以运行多套计算框架,如map reduce、storm等,根据driver在集群中的位置不同,分为yarn client和yarn cluster
由于在实际生产环境中中,都会使用hadoop集群,所以一般都会使用sparkOnYarn的模式。把spark的任务,提交给yarn平台来调度
2集群环境准备
1 hadoop环境需要在/etc/profile中配置HADOOP_CONF_DIR的目录,目的是为了让Spark找到core-site.xml、hdfs-site.xml和yarn-site.xml【让spark知道NameNode、ResourceManager