(一)安装
1)jdk
2)安装IDEA,并配置scala插件
3)安装spark
4)安装scala SDK
(二)踩过的坑
1) 无法加载主类
应该是由于环境的一些原因,这个尝试了好多种办法,最终也忘记是怎么解决的了==,所以有时间会收集下看过的资料,整理出办法。
2) 加载不了包
在安装好各种环境后,运行scala程序,报了一推错,头疼:
主要是无法 import apache 相关的一堆包
于是求助网上, 很多人说可以用安装sbt解决 (一个大坑)。
结果,sbt的依赖包更难安装,IDEA的进度条走不动
于是求助网上,这是因为安装包要从国外的网站上下载,需要挂vpn,或者修改配置文件,用镜像下载 (另一个大坑)。试了好多教程,进度条依然是走不动…
无意中(峰回路转),看到了这条博文:
spark踩坑记——windows环境下spark安装和运行
https://blog.csdn.net/hongxingabc/article/details/81565174
设置本地模式:run=>edit configrations=>Application=>选择我们应用,VM options上添加-Dspark.master=local
包含spark和scala sdk: 工程目录右键=>open module settings=> project settings=> libraries=>"+"=>java=>选择spark安装目录下的jars文件夹=>确认。同样地,“+”=>scala sdk =>选择需要的scala sdk(与spark版本对应的sdk)=>确认。
然后就可以愉快地运行scala程序啦。
3)spark可以导入,但运行报错
但是:
立刻,我又发现了一个坑:虽然scala可以正常运行,spark的包也可以导入,但是运行会报错。
查了很久,是spark、scala的版本不匹配的问题。
spark:2.3.3,之前的scala2.12
卸载了scala后,安装了scala 2.11
注意在project structure里面的 Global Libraries、Libraries里面都重新添加一下(删掉过去的scala)
愉快地解决了这个问题,那么:下一个坑来了。
4) 新的bug
结果还是因为前面配置过的一个链接,不知为啥又要重新配置一下。
解决A master URL must be set in your configuration错误
https://blog.csdn.net/shenlanzifa/article/details/42679577
5)报错:(null) entry in command string: null chmod 0644
不知道为什么会出现这个问题,但是应该和hadoop有关,解决方法:
在 https://github.com/SweetInk/hadoop-common-2.7.1-bin 中下载hadoop.dll,并拷贝到c:\windows\system32目录中
然后重新运行代码程序即可
SparkSQL程序报错:(null) entry in command string: null chmod 0644
https://blog.csdn.net/ys_230014/article/details/83350901