spark scala中的var 和val、def区别对比

Val 和Var 的区别

一、最直观的就是:val定义的变量不能被再次赋值,而var定义的可以,见下图

scala> val s=10
s: Int = 10

scala> s=11
<console>:27: error: reassignment to val
         s=11
          ^

scala> var a=10
a: Int = 10

scala> a=11
a: Int = 11

二、事实上,var 修饰的对象引用可以改变,val 修饰的则不可改变,但对象的状态却是可以改变的。

class A(n: Int) { 
    var value = n //利用可变修饰符定义一个值
} 
class B(n: Int) { 
    val value = new A(n) //利用不变修饰符定义一个值
} 

class C(n: Int) { 
    var value = new A(n) //利用可变修饰符定义一个值
}

object Test { 
    def main(args: Array[String]) { 
        val x = new B(5) //首先定义一个不可变变量x,所以下一行会报错
        x = new B(6) // 错误,因为 x 为 val 修饰的,引用不可改变 
        x.value = new A(6) // 错误,因为 x.value 为 val 修饰的,引用不可改变 
        
        val y = new C(5) //定义一个不可变变量y,但是y.value是 var修饰的,所以下一行正确
        y.value = new A(7) //因为y.value 是var修饰的。当然y = new C(7)依然报错,因为y是val修饰的
        x.value.value = 6 // 正确,x.value.value 为var 修饰的,可以重新赋值 
    } 
}

仔细看上面的备注解释,就可以明白var和val的区别了;

针对变量的不变性,使用val的好处:

一是,如果一个对象不想改变其内部的状态,那么由于不变性,我们不用担心程序的其他部分会改变对象的状态;

二是,当用 var 修饰的时候,你可能在多个地方重用 var 修饰的变量,这样会产生下面的问题:

  • 对于阅读代码的人来说,在代码的确定部分中知道变量的值是比较困难的;
  • 你可能会在使用代码前初始化代码,这样会导致错误;

针对变量的可变性,使用var的好处:

  • 使用可变性可以大幅度提高程序的执行效率。
  • 避免了由于其他用途而对变量进行重用

三、def需要注意的地方

abstract class Person {
    def id: Int  
}
class Student extends Person{
    override var id = 9527  //Error: method id_= overrides nothing
}

上述继承时,发生错误,因为用def定义的成员变量,不具备setter和getter方法。

那么如果父类中只定义了一个方法def id: Int,用来生成用户的id,而子类用var变量重写这个方法的话override var id = 9527,编译会报错method id_=overrides nothing,从报错中可以看出来,由于scala会为var变量自动生成了一个setter方法(id_),但是父类并没有这个方法,所以是无法重写的。

如果改下,必须为以下代码,此时重新定义了父类的setter方法

abstract class Person {
    def id: Int  
    def id_=(value: Int) //父类必须有set方法
}
class Student extends Person{
    override var id = 9527 //为var变量自动生成get和set方法
}

 也可以利用var定义函数的成员变量

abstract class Person1 {
    var id: Int  
}
class Student extends Person1{
     var id = 9527 //为var变量自动生成get和set方法
}

这样就可以直接使用了,不会出错了。

sparkScala和Python可以混合编写,通过PySpark的接口可以使用Python编写Spark应用程序,而Scala则可以使用Spark的原生API编写应用程序。下面我们将介绍如何在Spark混合使用Scala和Python编写应用程序。 首先,我们需要安装PySpark: ```bash pip install pyspark ``` 接下来,我们将介绍如何在Scala调用Python代码。 Scala调用Python代码 在Scala,我们可以使用`ProcessBuilder`类来启动Python进程,并且可以传递参数和读取Python进程的输出。下面是一个简单的Scala程序,它调用一个Python脚本并打印输出: ```scala import scala.collection.JavaConversions._ import java.io._ object ScalaPythonSample { def main(args: Array[String]) { val pb = new ProcessBuilder("python", "/path/to/python_script.py", "arg1", "arg2") val process = pb.start() val inputStream = process.getInputStream() val reader = new BufferedReader(new InputStreamReader(inputStream)) var line: String = null while ({line = reader.readLine(); line != null}) { println(line) } val exitCode = process.waitFor() println("Python script exited with code " + exitCode) } } ``` 在上面的代码,我们使用`ProcessBuilder`类启动Python进程,并传递了两个参数`arg1`和`arg2`。然后,我们读取Python进程的输出并打印到控制台。最后,我们等待Python进程退出并打印退出码。 Python调用Scala代码 在Python,我们可以使用Py4J库来调用Java/Scala代码。Py4J是一个Python库,它允许Python和Java之间的交互。下面是一个简单的Python程序,它调用一个Scala类: ```python from py4j.java_gateway import JavaGateway gateway = JavaGateway() scala_object = gateway.entry_point.getScalaObject() result = scala_object.add(1, 2) print(result) ``` 在上面的代码,我们使用Py4J库连接到Java/Scala进程,并获取Scala对象的引用。然后,我们调用Scala对象的`add`方法,并将结果打印到控制台。 Scala和Python混合编写 在Scala和Python之间调用代码是有用的,但通常我们需要更紧密的集成。为了实现这个目标,我们可以使用Spark的Python UDF(用户定义的函数)和Scala UDF。 下面是一个示例,演示如何在Scala定义一个UDF,并将其用作Spark DataFrame的列操作。该UDF使用Python函数来计算字符串的长度。 首先,我们定义一个Python函数,并将其保存到文件: ```python # save this file as len.py def len(s): return len(s) ``` 然后,我们定义一个Scala UDF,它调用我们的Python函数: ```scala import org.apache.spark.sql.functions._ object ScalaPythonUDF { def main(args: Array[String]) { val spark = SparkSession.builder() .appName("ScalaPythonUDF") .getOrCreate() // define Python UDF val myPythonUDF = udf((s: String) => { val pythonInterpreter = new PythonInterpreter() pythonInterpreter.execfile("/path/to/len.py") val pythonFunc = pythonInterpreter.get("len").asInstanceOf[PyObject] val result = pythonFunc.__call__(new PyString(s)).asInstanceOf[PyInteger] result.getIntValue() }) // use Python UDF in DataFrame val df = Seq("abc", "def", "ghi").toDF("col") val result = df.select(myPythonUDF(col("col"))) result.show() } } ``` 在上面的代码,我们定义了一个Python UDF,它使用PythonInterpreter类来执行我们的Python脚本并调用`len`函数。然后,我们可以在DataFrame使用该UDF,如下所示: ```scala val result = df.select(myPythonUDF(col("col"))) ``` 这样,我们就可以在Scala使用Python函数,并将其用作Spark DataFrame的列操作。 总结 通过PySpark的接口,我们可以在Spark使用Python编写应用程序。同时,我们也可以通过Py4J库在Python调用Java/Scala代码。最后,我们还可以在Scala使用Python函数,并将其用作Spark DataFrame的列操作。这些功能使得Spark的编写更加灵活和方便。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值