windows安装spark和scala的坑

最新推荐文章于 2024-04-11 00:41:04 发布

laozi_1234

最新推荐文章于 2024-04-11 00:41:04 发布

阅读量239

点赞数

分类专栏：工具使用文章标签： spark hadoop scala

本文链接：https://blog.csdn.net/laozi_1234/article/details/111635240

版权

工具使用专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文记录了作者在Windows10上安装Spark、Scala及Hadoop过程中遇到的问题和解决方案。包括JDK安装路径不能有空格、Hadoop配置问题以及环境变量冲突等。此外，文章还介绍了Spark与Hadoop的关系，指出Spark依赖HDFS，且因其内存计算特性而速度快。提供了可靠的安装教程链接，并附有Hadoop和Spark生态组件对比图。

摘要由CSDN通过智能技术生成

windows安装spark和scala的坑

先前一直在自己的mac电脑上面使用java的IDE写scala，在公司里面配套的是windows 10，迁移过来的时候踩过了一些坑，整理一下下，算是一个小结。

java、scala、spark以及hadoop之间的关系

无论是scala、spark还是hadoop底层都是依赖于JVM,所以毋庸置疑肯定需要安装JDK；
spark和hadoop的关系这篇知乎文档的回答我看懂了，我觉得他说的很有道理，贴在这里供大家参考
https://www.zhihu.com/question/23036370【小枣君】的回答将hadoop和spark的前世姻缘讲得很具体，总结下来就是hadoop起源于google，Hadoop的核心，说白了，就是HDFS和MapReduce[1],是一个大数据并行计算框架，可以高效处理海量数据；而spark青出于蓝而胜于蓝，是加州大学伯克利分校AMP实验室所开源的类Hadoop MapReduce的通用并行框架[1]，而**hadoop的mapreduce是面向磁盘的，受限于磁盘读写性能的约束，spark是面向内存，为多个不同数据源的数据提供近乎实时的处理性能，因此在图计算、机器学习和数据挖掘等方向深受欢迎。

我个人的理解就是：hadoop提供了一个分布式文件管理系统HDFS和通用的mapreduce框架，而spark因为所用是内存，大大提高了计算速度，因此我理解spark其实是依赖于hadoop的HDFS分布式文件管理系统，因此安装spark的同时也会安装hadoop；

scala就更好理解了，它是访问spark的一种底层语言，你安装完spark-shell以后直接就进入了scala；但是python也可以访问spark，可以用pyspark同样也可以配置spark；

下面一张图是hadoop和spark的生态组件对比，更能直观看出spark和hadoop的关系；
在这里插入图片描述

安装教程

晚上有很多安装spark一系列的教程，我用下来感觉比较靠谱的：
https://www.jianshu.com/p/5c490411f160【windows10 下Spark+Hadoop+hive+pyspark安装】

我觉得这篇文章比较的可惜的地方就是我已经踩过了很多坑了才遇到了它，简单总结一下我遇到的坑：
1、JAVA安装目录里面一定不能有空格，我最开始放到program files里面了，到最后会报找不到那个地址
2、Hadoop安装的时候没有替换bin里面的动态库和winutils.exe
前2个坑这篇文章都有解决~
3、因为我之前有安装过orcale里面的java，导致系统环境变量冲突，只能把之前安装的环境变量删掉；类似这种C:\Program Files (x86)\Common Files\Oracle\Java\javapath的环境变量要删掉~

laozi_1234

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
windows安装spark和scala的坑

windows安装spark和scala的坑先前一直在自己的mac电脑上面使用java的IDE写scala，在公司里面配套的是windows 10，迁移过来的时候踩过了一些坑，整理一下下，算是一个小结。java、scala、spark以及hadoop之间的关系无论是scala、spark还是hadoop底层都是依赖于JVM,所以毋庸置疑肯定需要安装JDK；spark和hadoop的关系这篇知乎文档的回答我看懂了，我觉得他说的很有道理，贴在这里供大家参考https://www.zhihu.com/q
复制链接

扫一扫

专栏目录