Spark 应用程序参数解析
在编写Spark 应用程序时,往往我们需要传递很多参数给main函数,比如如下所示:
我们定义的main函数 --> def main(args: Array[String]) 比如我们需要传递如下几个参数:
rank ,numIterations ,lambda
为了方便,我们先定义传入参数的顺序,直接把值写在调用程序的后面,但是存在一个问题,如果参数过多,很容易写错顺序,而且对于有些参数有默认值也不太好处理,所
以通过参数解析是一个很好的解决方案。但是如果自己写参数解析模块费时而且也不可能太完善,接下来展示spark给我们写的参数解析模块的使用样例。
- 定义程序需要的参数列表,比如如下所示:
case class Params(
input: String = null,
kryo: Boolean = false,
numIterations: Int = 20,
lambda: Double = 1.0,
rank: Int = 10,
numUserBlocks: Int = -1,
numProductBlocks: Int = -1,
implicitPrefs: Boolean = false) extends AbstractParams[Params]
上面是scala 语言,定义的样本Params 类(到时替换成你自己需要的参数), 继承的AbstractParams 类属于下面这个包里面
<span style="white-space:pre"> </span>package org.apache.spark.examples.mllib
</pre><pre name="code" class="html"> 2.实例化一个参数类
<span style="white-space:pre"> </span><pre name="code" class="html"><span style="white-space:pre"> </span>val defaultParams = Params()
3. 实例化一个参数解析器
<span style="white-space:pre"> </span><pre name="code" class="plain">val parser = new OptionParser[Params]("MovieLensALS") {
head("MovieLensALS: an example app for ALS on MovieLens data.")
opt[Int]("rank")
.text(s"rank, default: ${defaultParams.rank}")
.action((x, c) => c.copy(rank = x))
opt[Int]("numIterations")
.text(s"number of iterations, default: ${defau