------该文章将记录实际操作过程中遇到的问题,及其参考文章。
一、Windows本地搭建spark环境
1、spark环境搭建教程:
window环境下安装spark - 知乎 (zhihu.com)
2、问题报错:
(1)spark按照教程安装之后,cmd进行spark测试,未能正确安装上spark程序。
原因分析:spark安装包解压出来之后存在两层目录,所以读取不成功。
解决方案:手动修改spark文件目录为一层。
(2)平台加载hadoop库,初始化失败(问题未解决)
原因分析:是由于java版本的问题不匹配(过高)导致hadoop集群运行报错(当前java版本是17)。
解决方案:修改java版本为1.8。(直接覆盖文件即可)
Java JDK下载安装及环境配置超详细图文教程-CSDN博客
注:搭建环境时的版本问题参考:
Spark与Scala版本对应关系_spark3.5.0对应scala版本是多少-CSDN博客
(3)jdk版本更改为1.8后,hadoop依旧报错(问题解决)
原因分析:电脑设备名称,存在下划线,导致hadoop初始化失败。
Spark3.1.2单机安装部署问题处理记录_spark单机版 sparkexception: invalid master url: spark-CSDN博客
解决方案:修改电脑设备名称的下划线,将下划线去掉。
>win+R >cmd >spark-shell 出现以下界面,表示安装成功。
二、在IDEA搭建spark环境
1、spark环境搭建教程:
(1)主参考流程
spark环境搭建(idea版本)_idea spark开发环境-CSDN博客
(2)补充参考流程
在IDEA运行spark程序(搭建Spark开发环境)_idea spark-CSDN博客
补充添加spark的jar包
IDEA编辑器配置spark开发环境 - 知乎 (zhihu.com)
(3)相关依赖参考
添加spark的相关依赖和打包插件(第六弹)_sparkconf的依赖安装-CSDN博客
(4)暂未实际使用到
spark所需依赖_org.apache.spark依赖-CSDN博客
2、需要使用json文本格式转换的(阿里)包
Maven--如何下载JSONObject相关依赖架包_maven json.jar 下载-CSDN博客
3、实际操作问题
(1)配置问题
1.配置spark时,需要配置其jar包到IDEA;创建项目是基于scala类开发的object项目;创建本地的spark需要用到java1.8版本(最好是1.8)、spark2.0.2版本、scala2.12.6版本。注意版本需要接近,否则会出现不兼容问题。
版本问题可参考:
Spark与Scala版本对应关系_spark3.5.0对应scala版本是多少-CSDN博客
(2)
三、spark shell 基础学习教程
Spark入门:文件数据读写_厦大数据库实验室博客 (xmu.edu.cn)
输入那个spark-shell就是进入spark环境
进入到spark环境之后再执行这些命令: