Spark之Window

最新推荐文章于 2024-06-25 14:39:48 发布

SummerHmh

最新推荐文章于 2024-06-25 14:39:48 发布

阅读量744

点赞数

分类专栏： SPARK

本文链接：https://blog.csdn.net/SummerHmh/article/details/89518567

版权

SPARK 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

大致说明以及对应软件
详细部署步骤

此学习路线基于window单机模式

大致说明以及对应软件

JDK部署
Spark是跑在JVM上，所以必须部署JDK
提供百度网盘的JDK下载地址：
64位操作系统：jdk-8u211-windows-x64.exe
32位操作系统：jdk-8u211-windows-i586.exe
Spark部署
Spark 从官网上下载Spark-2.4.1 解压后 bin目录为可执行文件，conf目录为配置目录
注意文件名之间不要有空格
单机，可以不用hadoop，该错误可以忽略，或者部署hadoop也可，以下有详细说明
hadoop下载（处理好winutils的问题）：可以从我的网盘里下载，
链接地址
提取码：9bv2
python（可以通过anaconda）
不详述
python 与 spark关连
findspark模块：pip install findspark
学习模式，用jupyter直观些
引入模块

import findspark
#可在环境变量中进行设置，即PATH中加入如下地址
findspark.init("D:\spark\spark-2.4.1-bin-hadoop2.7")
from pyspark import SparkContext as sc
from pyspark import SparkConf as conf

详细部署步骤

JDK部署

提供百度网盘的JDK下载地址：
64位操作系统：jdk-8u211-windows-x64.exe
32位操作系统：jdk-8u211-windows-i586.exe
官网最新两版版，木有32位，因此还是用稳定的8u211

JDK官网下载地址
在这里插入图片描述

下载之后进行安装
双击exe文件，

在这里插入图片描述
可更改存放目录
jdk

jre

进入等待期~

成功安装
在这里插入图片描述

环境变量配置
计算机-属性-高级系统设置-环境变量

进入之后，如果有多系统，一般会有一个用户变量，一个系统变量；如果没有只有一个系统变量，用户变量针对当前用户有效

新建环境变量，如果只有系统变量，直接在系统变量里建立

JAVA_HOME 刚刚存放jdk的地址

CLASS_PATH 建议直接复制粘贴 .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar

PATH 后面添加 %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
同理如果木有用户变量，直接在系统变量的path后面添加

然后点击确定

以上，环境变量配置ok，接下来验证JDK情况。
验证是否安装成功
进入cmd，或者win+r

在这里插入图片描述
然后输入java -version 回车，如下

说明配置成功

Spark部署

下载安装
Spark 从官网上下载Spark-2.4.1 解压后 bin目录为可执行文件，conf目录为配置目录
网盘链接地址
注意文件名之间不要有空格
环境变量配置
SPARK_HOME>>D:\spark\spark-2.4.1-bin-hadoop2.7
PATH >> %SPARK_HOME%\bin;
新建SPARK_HOME

PATH尾部添加 %SPARK_HOME%\bin;
验证
CMD下输入，spark-shell ，提示如下

说明配置成功，但是因为没有hadoop，所以有一个错误，如果是单机hadoop这个错误可以忽略，想用hdfs文件系统，那么进入下一步，hadoop的安装

hadoop部署

官网下载hadoop，这里下载 hadoop-3.2.0.tar.gz 版本
链接地址
官网下载的可能会缺少winutils.exe
可以从我的网盘里下载，链接地址
提取码：9bv2
解压之后，设置环境变量
HADOOP_HOME:D:\hadoop\hadoop-3.2.0
在这里插入图片描述
PATH后面添加bin路劲**%HADOOP_HOME%\bin;**
再输入spark-shell，效果如下，就不会有hadoop的问题

Python部署

这个就不详述了

jupyter 使用 pyspark

启动jupyter

import findspark
#可在环境变量中进行设置，即PATH中加入如下地址
findspark.init("D:\spark\spark-2.4.1-bin-hadoop2.7")
from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark import SparkConf

# 创建sc
sc=SparkContext("local","Simple")

即可。

SummerHmh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark之Window

文章目录Spark 安装部署RDD此学习路线基于window单机模式Spark 安装部署JDK部署Spark是跑在JVM上，所以必须部署JDK提供百度网盘的JDK下载地址：64位操作系统：jdk-8u211-windows-x64.exe32位操作系统：jdk-8u211-windows-i586.exeSpark部署Spark 从官网上下载Spark-2.4.1 解压后 bi...
复制链接

扫一扫

专栏目录