Spark调研笔记第2篇 - 如何通过Spark客户端向Spark提交任务

本文详述了Spark客户端的配置,包括其在Spark预建包中的位置,以及如何在部署于计算任务机器上的客户端使用bin/pyspark进行交互式应用提交。此外,还介绍了利用bin/spark-submit脚本提交基于ALS算法的矩阵分解模型,用于电影推荐的应用实例。
摘要由CSDN通过智能技术生成

上篇笔记的基础上,本文介绍Spark客户端的基本配置及Spark任务提交方式。

1. Spark客户端及基本配置
从Spark官网下载的pre-built包中集成了Spark客户端,如与hadoop ver1.x兼容的Spark客户端位于spark-1.3.1-bin-hadoop1/bin目录下。
Spark客户端通常部署在要提交计算任务的机器上,用来向集群提交应用。特别地,客户端自带的bin/pyspark脚本支持以交互模式向集群提交应用,在交互模式下测试spark python api的执行结果是很方便的
Spark客户端的配置文件通常位于conf目录下,典型的配置文件列表如下所列:

spark-defaults.conf  // 设置spark master地址、每个executor进程的内存、占用核数,等等
spark-env.sh         // spark相关的各种环境变量
log4j.properties.template    // 设置driver向console输出的日志的等级及格式
fairscheduler.xml.template   // 设置调度方式
metrics.properties.template  // 设置spark内部m
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值