Linux下安装单机版Spark并使用scala和python

10 篇文章 0 订阅
7 篇文章 0 订阅

(作者:陈玓玏)
只学习spark,还不学分布式的时候,可以先单机装spark,这时候不需要用到hadoop的,但是仍然需要java环境,所以要先安装java的jdk。

1、 下载并安装java jdk:

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 地址,下载
在这里插入图片描述
一样的位置,但现在的版本已经是191了。下载前记得在图中大标题下面先点击accept,否则下载会失败。
下载好之后,放到一个文件夹下,我是在华为云上自己建了一个文件。然后把压缩包放到这个文件夹下解压。

tar zxvf jdk-8u191-linux-x64.tar.gz

加压后,需要以下命令设置环境变量:

sudo vi /etc/profile

输入这个命令后就进入了文件,但是要按i或a命令才可以进入编辑模式,在文件最后加入以下内容:

#Java Env
export JAVA_HOME=/root/spark_local/jdk1.8.0_191
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

记得内容中的版本号以及路径。
最后按esc退出编辑模式,输入英文冒号再输入x保存退出,也就是这样

:x

让环境变量立即生效,通过以下命令:

source /etc/profile

输入以下命令查看java版本,如果输出版本了就是成功了。

java -version

2、 安装好java环境后,安装spark

因为是单机版,所以不需要安装先安装spark,直接上官网下载,地址:http://spark.apache.org/downloads.html ,没有hadoop环境就选择spark-2.3.2-bin-hadoop2.7就好了,点进下载链接后,里头有很多个镜像,选择一个能打开的下载就行。下载好之后,解压。
解压后输入命令ll,可以查看当前文件夹下所有的文件夹,如下:
在这里插入图片描述

3、 打开shell,使用spark:

cd到spark解压后的目录下,在我这里就是cd spark-2.3.2-bin-hadoop2.7,进入目录后,输入bin/spark-shell,这样就打开了scala shell,能够输入scala命令进行交互了。界面如下:
在这里插入图片描述

4. 退出spark:输入“:quit”。

5. 使用scala和python的小例子:

使用scala:在spark文件夹下输入:

   bin/spark-shell
   var lines = sc.textFile(“README.md”)  --创建新的RDD,Resilient Distributed Dataset,弹性分布式数据集
   lines.count()  --输出长度
   使用python:在spark文件夹下输入:
   bin/pyspark   --如果配置了环境变量就可以直接用pyspark
   textFile = sc.textFile("README.md")   --创建新的RDD
  textFile.count()  --输出长度

6. spark2.0运行py文件的方法:

./bin/spark-submit filepath.py

参考资料:

  1. Linux下安装java jdk:https://www.cnblogs.com/liugh/p/6623530.html
  2. 安装单机版spark(竟然是CSDN排名第一的大神的博客):https://blog.csdn.net/stpeace/article/details/79242999
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
spark中,ScalaPython可以混合编写,通过PySpark的接口可以使用Python编写Spark应用程序,而Scala则可以使用Spark的原生API编写应用程序。下面我们将介绍如何在Spark中混合使用ScalaPython编写应用程序。 首先,我们需要安装PySpark: ```bash pip install pyspark ``` 接下来,我们将介绍如何在Scala中调用Python代码。 Scala调用Python代码 在Scala中,我们可以使用`ProcessBuilder`类来启动Python进程,并且可以传递参数和读取Python进程的输出。下面是一个简单的Scala程序,它调用一个Python脚本并打印输出: ```scala import scala.collection.JavaConversions._ import java.io._ object ScalaPythonSample { def main(args: Array[String]) { val pb = new ProcessBuilder("python", "/path/to/python_script.py", "arg1", "arg2") val process = pb.start() val inputStream = process.getInputStream() val reader = new BufferedReader(new InputStreamReader(inputStream)) var line: String = null while ({line = reader.readLine(); line != null}) { println(line) } val exitCode = process.waitFor() println("Python script exited with code " + exitCode) } } ``` 在上面的代码中,我们使用`ProcessBuilder`类启动Python进程,并传递了两个参数`arg1`和`arg2`。然后,我们读取Python进程的输出并打印到控制台。最后,我们等待Python进程退出并打印退出码。 Python调用Scala代码 在Python中,我们可以使用Py4J库来调用Java/Scala代码。Py4J是一个Python库,它允许Python和Java之间的交互。下面是一个简单的Python程序,它调用一个Scala类: ```python from py4j.java_gateway import JavaGateway gateway = JavaGateway() scala_object = gateway.entry_point.getScalaObject() result = scala_object.add(1, 2) print(result) ``` 在上面的代码中,我们使用Py4J库连接到Java/Scala进程,并获取Scala对象的引用。然后,我们调用Scala对象的`add`方法,并将结果打印到控制台。 ScalaPython混合编写 在ScalaPython之间调用代码是有用的,但通常我们需要更紧密的集成。为了实现这个目标,我们可以使用Spark中的Python UDF(用户定义的函数)和Scala UDF。 下面是一个示例,演示如何在Scala中定义一个UDF,并将其用作Spark DataFrame中的列操作。该UDF使用Python函数来计算字符串的长度。 首先,我们定义一个Python函数,并将其保存到文件中: ```python # save this file as len.py def len(s): return len(s) ``` 然后,我们定义一个Scala UDF,它调用我们的Python函数: ```scala import org.apache.spark.sql.functions._ object ScalaPythonUDF { def main(args: Array[String]) { val spark = SparkSession.builder() .appName("ScalaPythonUDF") .getOrCreate() // define Python UDF val myPythonUDF = udf((s: String) => { val pythonInterpreter = new PythonInterpreter() pythonInterpreter.execfile("/path/to/len.py") val pythonFunc = pythonInterpreter.get("len").asInstanceOf[PyObject] val result = pythonFunc.__call__(new PyString(s)).asInstanceOf[PyInteger] result.getIntValue() }) // use Python UDF in DataFrame val df = Seq("abc", "def", "ghi").toDF("col") val result = df.select(myPythonUDF(col("col"))) result.show() } } ``` 在上面的代码中,我们定义了一个Python UDF,它使用PythonInterpreter类来执行我们的Python脚本并调用`len`函数。然后,我们可以在DataFrame中使用该UDF,如下所示: ```scala val result = df.select(myPythonUDF(col("col"))) ``` 这样,我们就可以在Scala使用Python函数,并将其用作Spark DataFrame中的列操作。 总结 通过PySpark的接口,我们可以在Spark使用Python编写应用程序。同时,我们也可以通过Py4J库在Python中调用Java/Scala代码。最后,我们还可以在Scala使用Python函数,并将其用作Spark DataFrame中的列操作。这些功能使得Spark的编写更加灵活和方便。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值