本文要解决的问题:
Spark主要是由Scala语言编写而成的,所以要真正深入了解Spark,必须要熟悉Scala,在此结合阅读《Scala编程》这本书的情况,对Scala语言做一个基本的总结,本篇文章主要针对Scala的集合。
列表 List
scala> val numbers = List(1, 2, 3, 4)
numbers: List[Int] = List(1, 2, 3, 4)
集 Set
集没有重复
scala> Set(1, 1, 2)
res0: scala.collection.immutable.Set[Int] = Set(1, 2)
元组 Tuple
元组是在不使用类的前提下,将元素组合起来形成简单的逻辑集合。
scala> val hostPort = ("localhost", 80)
hostPort: (String, Int) = (localhost, 80)
与样本类不同,元组不能通过名称获取字段,而是使用位置下标来读取对象;而且这个下标基于1,而不是基于0。
scala> hostPort._1
res0: String = localhost
scala> hostPort._2
res1: Int = 80
元组可以很好得与模式匹配相结合。
hostPort match {
case ("localhost", port) => ...
case (host, port) => ...
}
在创建两个元素的元组时,可以使用特殊语法:->
scala> 1 -> 2
res0: (Int, Int) = (1,2)
映射 Map
它可以持有基本数据类型。
Map(1 -> 2)
Map("foo" -> "bar")
这看起来像是特殊的语法,不过不要忘了上文讨论的->可以用来创建二元组。
Map()方法也使用了之前的变参列表:Map(1 -> “one”, 2 -> “two”)将变为 Map((1, “one”), (2, “two”)),其中第一个参数是映射的键,第二个参数是映射的值。
映射的值可以是映射甚或是函数。
Map(1 -> Map("foo" -> "bar"))
Map("timesTwo" -> { timesTwo(_) })
选项 Option
Option 是一个表示有可能包含值的容器。
Option基本的接口是这样的:
trait Option[T] {
def isDefined: Boolean
def get: T
def getOrElse(t: T): T
}
Option本身是泛型的,并且有两个子类: Some[T] 或 None
我们看一个使用Option的例子:
Map.get 使用 Option 作为其返回值,表示这个方法也许不会返回你请求的值。
scala> val numbers = Map("one" -> 1, "two" -> 2)
numbers: scala.collection.immutable.Map[java.lang.String,Int] = Map(one -> 1, two -> 2)
scala> numbers.get("two")
res0: Option[Int] = Some(2)
scala> numbers.get("three")
res1: Option[Int] = None
现在我们的数据似乎陷在Option中了,我们怎样获取这个数据呢?
直觉上想到的可能是在isDefined方法上使用条件判断来处理。
// We want to multiply the number by two, otherwise return 0.
val result = if (res1.isDefined) {
res1.get * 2
} else {
0
}
我们建议使用getOrElse或模式匹配处理这个结果。
getOrElse 让你轻松地定义一个默认值。
val result = res1.getOrElse(0) * 2
模式匹配能自然地配合Option使用。
val result = res1 match {
case Some(n) => n * 2
case None => 0
}