在上篇笔记的基础上,本文介绍Spark客户端的基本配置及Spark任务提交方式。
1. Spark客户端及基本配置
从Spark官网下载的pre-built包中集成了Spark客户端,如与hadoop ver1.x兼容的Spark客户端位于spark-1.3.1-bin-hadoop1/bin目录下。
Spark客户端通常部署在要提交计算任务的机器上,用来向集群提交应用。特别地,客户端自带的bin/pyspark脚本支持以交互模式向集群提交应用,在交互模式下测试spark python api的执行结果是很方便的。
Spark客户端的配置文件通常位于conf目录下,典型的配置文件列表如下所列:
spark-defaults.conf // 设置spark master地址、每个executor进程的内存、占用核数,等等
spark-env.sh // spark相关的各种环境变量
log4j.properties.template // 设置driver向console输出的日志的等级及格式
fairscheduler.xml.template // 设置调度方式
metrics.properties.template // 设置spark内部m