spark：spark-submit 提交任务及参数说明（yarn）

最新推荐文章于 2024-07-10 08:00:00 发布

花和尚也有春天

最新推荐文章于 2024-07-10 08:00:00 发布

阅读量1.5w

点赞数 7

分类专栏： spark 文章标签： spark hadoop hdfs yarn submit

本文链接：https://blog.csdn.net/weixin_38750084/article/details/104146054

版权

本文介绍了如何使用spark-submit提交任务到Spark Standalone及Hadoop YARN集群，详细解析了spark-submit参数，并通过实例展示了在不同模式下（client与cluster）的运行差异。总结关键在于：代码中去除.master("local[*]")后，client和cluster模式均可成功运行；否则，仅client模式可行。

摘要由CSDN通过智能技术生成

Spark：对于提交命令的理解：

https://blog.csdn.net/weixin_38750084/article/details/106973247

spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行。

代码中配置：

util：


import org.apache.spark.serializer.KryoSerializer
import org.apache.spark.sql.SparkSession

object SparkContextUtil {
  /**
    * 封装创建sparkContext实例
    *
    * @param appName
    * @param params
    * @return
    */
  def createSparkContext(appName: String, params: Map[String, String] = Map.empty) = {
    // 入口
    val spark: SparkSession = SparkSession.builder()
      .appName(appName)
      .config("spark.sql.warehouse.dir", "/user/hive/warehouse")
      .master("local[*]")
      .config("spark.serializer",classOf[KryoSerializer].getName)
      .config("spark.debug.maxToStringFields", "100")
      .enableHiveSupport().getOrCreate()


    // 封装用户传递进来的参数
    params.foreach { case (key, value) => spark.conf.set(key, value) }

    spark
  }
}

使用：

object BusinessDataCombineErpJobs {

  Logger.getLogger("org").setLevel(Level.WARN)
  val logger = LoggerFactory.getLogger(BusinessDataCombineErpJobs.getClass.getSimpleName)


  def main(args: Array[String]): Unit = {

    val spark = SparkContextUtil.createSparkContext(TestSparkSql.getClass.getSimpleName)
    //返回基础sparkContext，用于创建RDD以及管理群集资源
    val sc = spark.sparkContext
    println("---数据处理开始---")
    test(spark)
    println("---数据处理结束---")
    spark.close()
  }
}

1. 例子

一个最简单的例子，部署 spark standalone 模式后，提交到本地执行。

./bin/spark-submit \
--master spark://localhost:7077 \
examples/src/main/python/pi.py

如果部署 hadoop，并且启动 yarn 后，spark 提交到 yarn 执行的例子如下。

注意，spark 必须编译成支持 yarn 模式，编译 spark 的命令为：

build/mvn -Pyarn -Phadoop-2.x -Dhadoop.version=2.x.x -DskipTests clean package

其中, 2.x 为 hadoop 的版本号。编译完成后，可执行下面的命令，提交任务到 hadoop yarn 集群执行。

./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
--queue thequeue \
examples/target/scala-2.11/jars/spark-examples*.jar 10

注意：后边的数字10是传入的一个参数

线上实操：

spark2-submit --class bi.tag.TSimilarTagsTable --master yarn-client --executor-memory 6G --num-executors 5 --executor-cores 2 /var/lib/hadoop-hdfs/seijing/ble/tag/spark-sql/pf-spark-master/pi/target/pi-1.0.1-SNAPSHOT.jar


spark2-submit --class resume.mlib.RcoAID \
--master yarn \
--deploy-mode client  \
--num-executors 4  \
--executor-memory 10G \
--executor-cores 3 \
--driver-memory 10g \
--conf "spark.executor.extraJavaOptions='-Xss512m'" \
--driver-java-options "-Xss512m" \
/var/lib/hadoop-hdfs/als_ecommend/reserver-1.0-SNAPSHOT.jar  $1 $2 >> /var/lib/hadoop-hdfs/als_ecommend/logs/log_spark_out_`date +\%Y\%m\%d`.log

注意：
（1）
$1 $2 是 上一层，执行这个脚本传进来的参数
如：
/bin/bash