learning-spark 学习笔记（1）：装个环境

最新推荐文章于 2024-04-17 09:49:09 发布

sdoddyjm68

最新推荐文章于 2024-04-17 09:49:09 发布

阅读量698

点赞数 1

分类专栏：学习笔记文章标签： Spark Hadoop 分布式学习笔记机器学习

本文链接：https://blog.csdn.net/sdoddyjm68/article/details/79478453

版权

学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了学习Spark的环境配置过程，包括下载Spark和Hadoop的特定版本，解决Hadoop中winutils.exe缺失的问题，以及将Spark配置到jupyter notebook进行交互式学习。在配置过程中，遇到的错误如java.io.IOException和HDFS的权限问题也得到了解决。

摘要由CSDN通过智能技术生成

最近在学习
这里写图片描述
Spark框架版本迭代很快，这本书上的Spark版本是1.1，对应的hadoop版本是2.4。遗憾的是Apache Spark已经不提供1.1版本的下载了，为了避免版本更迭导致的学习受阻，要尽量采用低版本的Spark和hadoop

Spark下载地址：Apach Spark。
Spark提供java、scala及python的api接口
如果使用的是python且python的版本是3.6，那么就只能下载Spark 2.2.1对应hadoop2.6（python2.7到python3.5的可以下载Spark2.1 对应hadoop2.\4）
这里写图片描述
将压缩包解压，放在任意的文件夹，建议放在C:\Spark
下载hadoop，这里我们Spark对应的hadoop版本是2.6，所以要在这里选择2.6.0版本的hadoop下载

将下载的文件解压到C:\Spark目录下（C:\Spark\hadoop-2.6.0）
设置环境变量：