learning-spark 学习笔记(1):装个环境

本文介绍了学习Spark的环境配置过程,包括下载Spark和Hadoop的特定版本,解决Hadoop中winutils.exe缺失的问题,以及将Spark配置到jupyter notebook进行交互式学习。在配置过程中,遇到的错误如java.io.IOException和HDFS的权限问题也得到了解决。
摘要由CSDN通过智能技术生成

最近在学习
这里写图片描述
Spark框架版本迭代很快,这本书上的Spark版本是1.1,对应的hadoop版本是2.4。遗憾的是Apache Spark已经不提供1.1版本的下载了,为了避免版本更迭导致的学习受阻,要尽量采用低版本的Spark和hadoop

Spark下载地址:Apach Spark
Spark提供java、scala及python的api接口
如果使用的是python且python的版本是3.6,那么就只能下载Spark 2.2.1对应hadoop2.6(python2.7到python3.5的可以下载Spark2.1 对应hadoop2.\4)
这里写图片描述
将压缩包解压,放在任意的文件夹,建议放在C:\Spark
下载hadoop,这里我们Spark对应的hadoop版本是2.6,所以要在这里选择2.6.0版本的hadoop下载
这里写图片描述
将下载的文件解压到C:\Spark目录下(C:\Spark\hadoop-2.6.0)
设置环境变量:

  1. 添加SPARK_HOME,地址为C:\Spark
  2. 添加HADOOP_HOME,地址为%SPARK_HOME%\hadoop-2.6.0
    打开命令行,输入pyspark显示以下图片即表示安装成功(无视WARNING)
    这里写图片描述

遇到的报错

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

在hadoop文件夹中没有winutils.exe
解决办法:

  • 这里,选择对应hadoop版本的winutils.exe,下载后解压到%HADOOP_HOME%\bin
The root scratch dir: /tmp/hive on HDFS should be writable.
  • 在管理员权限下打开windows powershell,输入%HADOOP_HOME%\bin\winutils.exe chmod 777 C:\tmp\hive实际上是提升了权限

配置Spark到jupyter notebook

打开%SPARK_HOME%\bin\spark
PYSPARK_DRIVER_PYTHONPYSPARK_DRIVER_PYTHON_OPTS这两项后面修改一下
这里写图片描述
在命令行输入pyspark,启动Spark的时候顺带会启动jupyter notebook

如果没有启动

pip安装findsparkpip3 install findspark
以后每次在使用jupyter notebook的时候加上

import findspark
findspark.init()

这里写图片描述
即可正常使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值