spark hive 本地调试 & 提交任务到yarn cluster

本文讲述spark部署在远程服务器的yarn环境下时,如何进行本地调试以及提交任务到yarn cluster

首先,把 core-site.xml hive-site.xml yarn-site.xml拷贝到 resources 下,和target/classes下


    System.setProperty("HADOOP_USER_NAME", "user")  // 这里user改成你自己有权限的用户名

    val spark = SparkSession
      // 本地模式
      // 连接远程数据仓库
      .config("spark.sql.warehouse.dir", "hdfs://xxxx")
      // 如果不加的话,会导致只能显示目录,不能读取表数据
      .config("dfs.client.use.datanode.hostname", "true")

    //TODO 执行逻辑和操作
    // config("dfs.client.use.datanode.hostname", "true"),不加这个的话,会导致只能
    // show tables, 而select会一直Connection timed out: no further information
    spark.sql("show tables;").show()
    spark.sql("select * from table1;").show()
    //TODO 关闭环境


  1. 编写代码
    val sparkConf = new SparkConf()
      .setMaster("yarn")  // 设置yarn模式

    val spark = SparkSession
      .config("spark.sql.warehouse.dir", "hdfs://xxxx")  // 注明数据仓库地址

    //TODO 执行逻辑和操作
    val df: DataFrame = spark.sql("select * from table1")
    df.write.format("csv").save("hdfs://hdp:8020/output/result.csv")  // 保存结果

    //TODO 关闭环境
  1. 代码敲完了,在maven打包前记得一定一定要build
  2. maven打包,点package

4. 上传到集群
5. copy完整类名
6. 提交任务到yarn集群

spark-submit \
--class 完整类名 \
--master yarn \
--deploy-mode cluster \


