Spark之Window


此学习路线基于window单机模式

大致说明以及对应软件

  • JDK部署
    Spark是跑在JVM上,所以必须部署JDK
    提供百度网盘的JDK下载地址:
    64位操作系统:jdk-8u211-windows-x64.exe
    32位操作系统:jdk-8u211-windows-i586.exe

  • Spark部署
    Spark 从官网上下载Spark-2.4.1 解压后 bin目录为可执行文件,conf目录为配置目录
    注意文件名之间不要有空格

  • 单机,可以不用hadoop,该错误可以忽略,或者部署hadoop也可,以下有详细说明
    hadoop下载(处理好winutils的问题):可以从我的网盘里下载,
    链接地址
    提取码:9bv2

  • python(可以通过anaconda)
    不详述

  • python 与 spark关连
    findspark模块:pip install findspark

  • 学习模式,用jupyter直观些
    引入模块

import findspark
#可在环境变量中进行设置,即PATH中加入如下地址
findspark.init("D:\spark\spark-2.4.1-bin-hadoop2.7")
from pyspark import SparkContext as sc
from pyspark import SparkConf as conf

详细部署步骤

JDK部署

提供百度网盘的JDK下载地址:
64位操作系统:jdk-8u211-windows-x64.exe
32位操作系统:jdk-8u211-windows-i586.exe
官网最新两版版,木有32位,因此还是用稳定的8u211

JDK官网下载地址
在这里插入图片描述

  • 下载之后进行安装
    双击exe文件,

在这里插入图片描述
可更改存放目录
jdk
在这里插入图片描述
jre
在这里插入图片描述
进入等待期~
在这里插入图片描述

成功安装
在这里插入图片描述

  • 环境变量配置
    计算机-属性-高级系统设置-环境变量
    在这里插入图片描述
    在这里插入图片描述
    进入之后,如果有多系统,一般会有一个用户变量,一个系统变量;如果没有只有一个系统变量,用户变量针对当前用户有效
    在这里插入图片描述
    新建环境变量,如果只有系统变量,直接在系统变量里建立
    在这里插入图片描述
    JAVA_HOME 刚刚存放jdk的地址
    在这里插入图片描述
    CLASS_PATH 建议直接复制粘贴 .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
    在这里插入图片描述
    PATH 后面添加 %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
    同理如果木有用户变量,直接在系统变量的path后面添加
    在这里插入图片描述
    然后点击确定
    在这里插入图片描述
    在这里插入图片描述
    以上,环境变量配置ok,接下来验证JDK情况。
  • 验证是否安装成功
    进入cmd,或者win+r

在这里插入图片描述
然后输入java -version 回车,如下
在这里插入图片描述
说明配置成功

Spark部署

  • 下载安装
    Spark 从官网上下载Spark-2.4.1 解压后 bin目录为可执行文件,conf目录为配置目录
    网盘链接地址
    注意文件名之间不要有空格
    在这里插入图片描述

  • 环境变量配置
    SPARK_HOME>>D:\spark\spark-2.4.1-bin-hadoop2.7
    PATH >> %SPARK_HOME%\bin;
    新建SPARK_HOME
    在这里插入图片描述
    PATH尾部添加 %SPARK_HOME%\bin;
    在这里插入图片描述

  • 验证
    CMD下输入,spark-shell ,提示如下
    在这里插入图片描述
    在这里插入图片描述
    说明配置成功,但是因为没有hadoop,所以有一个错误,如果是单机hadoop这个错误可以忽略,想用hdfs文件系统,那么进入下一步,hadoop的安装

hadoop部署

官网下载hadoop,这里下载 hadoop-3.2.0.tar.gz 版本
链接地址
官网下载的可能会缺少winutils.exe
可以从我的网盘里下载,链接地址
提取码:9bv2
解压之后,设置环境变量
HADOOP_HOME:D:\hadoop\hadoop-3.2.0
在这里插入图片描述
PATH后面添加bin路劲**%HADOOP_HOME%\bin;**在这里插入图片描述
再输入spark-shell,效果如下,就不会有hadoop的问题
在这里插入图片描述

Python部署

这个就不详述了

jupyter 使用 pyspark

  1. 启动jupyter
import findspark
#可在环境变量中进行设置,即PATH中加入如下地址
findspark.init("D:\spark\spark-2.4.1-bin-hadoop2.7")
from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark import SparkConf

# 创建sc
sc=SparkContext("local","Simple")

即可。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值