windows安装spark和scala的坑

本文记录了作者在Windows10上安装Spark、Scala及Hadoop过程中遇到的问题和解决方案。包括JDK安装路径不能有空格、Hadoop配置问题以及环境变量冲突等。此外,文章还介绍了Spark与Hadoop的关系,指出Spark依赖HDFS,且因其内存计算特性而速度快。提供了可靠的安装教程链接,并附有Hadoop和Spark生态组件对比图。
摘要由CSDN通过智能技术生成

windows安装spark和scala的坑

先前一直在自己的mac电脑上面使用java的IDE写scala,在公司里面配套的是windows 10,迁移过来的时候踩过了一些坑,整理一下下,算是一个小结。

java、scala、spark以及hadoop之间的关系

无论是scala、spark还是hadoop底层都是依赖于JVM,所以毋庸置疑肯定需要安装JDK;
spark和hadoop的关系这篇知乎文档的回答我看懂了,我觉得他说的很有道理,贴在这里供大家参考
https://www.zhihu.com/question/23036370【小枣君】的回答将hadoop和spark的前世姻缘讲得很具体,总结下来就是hadoop起源于google,Hadoop的核心,说白了,就是HDFS和MapReduce[1],是一个大数据并行计算框架,可以高效处理海量数据;而spark青出于蓝而胜于蓝,是加州大学伯克利分校AMP实验室所开源的类Hadoop MapReduce的通用并行框架[1],而**hadoop的mapreduce是面向磁盘的,受限于磁盘读写性能的约束,spark是面向内存,为多个不同数据源的数据提供近乎实时的处理性能,因此在图计算、机器学习和数据挖掘等方向深受欢迎。

我个人的理解就是:hadoop提供了一个分布式文件管理系统HDFS和通用的mapreduce框架,而spark因为所用是内存,大大提高了计算速度,因此我理解spark其实是依赖于hadoop的HDFS分布式文件管理系统,因此安装spark的同时也会安装hadoop;

scala就更好理解了,它是访问spark的一种底层语言,你安装完spark-shell以后直接就进入了scala;但是python也可以访问spark,可以用pyspark同样也可以配置spark;

下面一张图是hadoop和spark的生态组件对比,更能直观看出spark和hadoop的关系;
在这里插入图片描述

安装教程

晚上有很多安装spark一系列的教程,我用下来感觉比较靠谱的:
https://www.jianshu.com/p/5c490411f160【windows10 下Spark+Hadoop+hive+pyspark安装】

我觉得这篇文章比较的可惜的地方就是我已经踩过了很多坑了才遇到了它,简单总结一下我遇到的坑:
1、JAVA安装目录里面一定不能有空格,我最开始放到program files里面了,到最后会报找不到那个地址
2、Hadoop安装的时候没有替换bin里面的动态库和winutils.exe
前2个坑 这篇文章都有解决~
3、因为我之前有安装过orcale里面的java,导致系统环境变量冲突,只能把之前安装的环境变量删掉;类似这种C:\Program Files (x86)\Common Files\Oracle\Java\javapath的环境变量要删掉~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值