Spark程序开发规范

最新推荐文章于 2024-08-20 00:30:00 发布

gamedev˚

最新推荐文章于 2024-08-20 00:30:00 发布

阅读量2.3k

点赞数

分类专栏：【大数据】➣ Spark 文章标签： spark munual Spark development specificatio

欢迎转载，注明作者和出处就好！如果有任何问题或文章存在明显的谬误，请留言说明原因谢谢，我也可以知道原因，不断进步！

本文链接：https://blog.csdn.net/Coder__CS/article/details/79196293

版权

【大数据】➣ Spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

在编写SparkRDD程序时，经常要将本地开发好的代码，在本地测试完后，要打包成jar，并发布到集群上去跑一跑。这是通过命令行传入参数的友好性提示和规范编码就体现出来了，下面我将整理【Scala语言开发Spark程序的常用模板】

package spark.sparkSQL

object SparkSQLTwitter {
    def main(args: Array[String]) {
      if (args.length < 2) {
        println("Usage inputFile outputFile [spark.sql.inMemoryColumnarStorage.batchSize]")
      }
      val inputFile = args(0)
      val outputFile = args(1)
      val batchSize = if (args.length == 3) {
        args(2)
      } else {
        "200"
      }
}

对于上面这段程序做简单的说明，首先该程序会判断命令行执行该类时，输入参数的个数以。
其中前两个参数 inputFile outputFile 是必填的，第三个参数[spark.sql.inMemoryColumnarStorage.batchSize] 是选填的。当程序判断第三个参数没有填写时，设置该参数的默认值。
这也就是官方代码中，常规对类输入参数的处理方法，可以采纳到自己编写的程序中。

另外对于SparkRDD程序，有一些代码是每个程序中都必备的，这里我将其整理出来，以备日后参考：

val conf = new SparkConf().setAppName("sparksql").setMaster("local")
val sc = new SparkContext(conf)
sc.setLogLevel("ERROR")

gamedev˚

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录