Linux下安装单机版Spark并使用scala和python

最新推荐文章于 2024-08-07 22:17:24 发布

小白白白又白cdllp

最新推荐文章于 2024-08-07 22:17:24 发布

阅读量3.6k

点赞数 1

本文链接：https://blog.csdn.net/weixin_39750084/article/details/83661141

版权

数据挖掘同时被 3 个专栏收录

33 篇文章 1 订阅

订阅专栏

Linux

10 篇文章 0 订阅

订阅专栏

Spark

7 篇文章 0 订阅

订阅专栏

（作者：陈玓玏）
只学习spark，还不学分布式的时候，可以先单机装spark，这时候不需要用到hadoop的，但是仍然需要java环境，所以要先安装java的jdk。

1、下载并安装java jdk：

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 地址，下载
在这里插入图片描述
一样的位置，但现在的版本已经是191了。下载前记得在图中大标题下面先点击accept，否则下载会失败。
下载好之后，放到一个文件夹下，我是在华为云上自己建了一个文件。然后把压缩包放到这个文件夹下解压。

tar zxvf jdk-8u191-linux-x64.tar.gz

加压后，需要以下命令设置环境变量：

sudo vi /etc/profile

输入这个命令后就进入了文件，但是要按i或a命令才可以进入编辑模式，在文件最后加入以下内容：

#Java Env
export JAVA_HOME=/root/spark_local/jdk1.8.0_191
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

记得内容中的版本号以及路径。
最后按esc退出编辑模式，输入英文冒号再输入x保存退出，也就是这样

:x

让环境变量立即生效，通过以下命令：

source /etc/profile

输入以下命令查看java版本，如果输出版本了就是成功了。

java -version

2、安装好java环境后，安装spark

因为是单机版，所以不需要安装先安装spark，直接上官网下载，地址：http://spark.apache.org/downloads.html ，没有hadoop环境就选择spark-2.3.2-bin-hadoop2.7就好了，点进下载链接后，里头有很多个镜像，选择一个能打开的下载就行。下载好之后，解压。
解压后输入命令ll，可以查看当前文件夹下所有的文件夹，如下：
在这里插入图片描述

3、打开shell，使用spark：

cd到spark解压后的目录下，在我这里就是cd spark-2.3.2-bin-hadoop2.7，进入目录后，输入bin/spark-shell，这样就打开了scala shell，能够输入scala命令进行交互了。界面如下：
在这里插入图片描述

4. 退出spark：输入“:quit”。

5. 使用scala和python的小例子：

使用scala：在spark文件夹下输入：

   bin/spark-shell
   var lines = sc.textFile(“README.md”)  --创建新的RDD，Resilient Distributed Dataset，弹性分布式数据集
   lines.count()  --输出长度
   使用python：在spark文件夹下输入：
   bin/pyspark   --如果配置了环境变量就可以直接用pyspark
   textFile = sc.textFile("README.md")   --创建新的RDD
  textFile.count()  --输出长度

6. spark2.0运行py文件的方法：

./bin/spark-submit filepath.py

参考资料：

Linux下安装java jdk：https://www.cnblogs.com/liugh/p/6623530.html
安装单机版spark（竟然是CSDN排名第一的大神的博客）：https://blog.csdn.net/stpeace/article/details/79242999

小白白白又白cdllp

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Linux下安装单机版Spark并使用scala和python

（作者：陈玓玏）只学习spark，还不学分布式的时候，可以先单机装spark，这时候不需要用到hadoop的，但是仍然需要java环境，所以要先安装java的jdk。1、下载并安装java jdk：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 地址，下载一样的位置，...
复制链接

扫一扫