环境
1)java8
2)hadoop2.7.3
3)scala2.11.2
4)R3.4.4(如果不需要sparkR的话R可以不用)
修改spark目录下的dev/make-distribution.sh脚本文件

把对应代码的改成自己对应的版本(可以加快编译速度不用脚本自行寻找版本)
编译之前需要安装一些依赖:
sudo apt install pandoc
pip install pypandoc
如果需要sparkR支持还需要在R命令行安装一些包:
install.packages(“knitr”)
install.packages(“rmarkdown”)
install.packages(“e1071”)
install.packages(“testthat”)
编译sparkR所需的依赖:
sudo apt install texlive-latex-base
sudo apt install texlive-latex-recommended
sudo apt install texlive-latex-extra
sudo apt install texlive-fonts-recommended
sudo apt install texlive-fonts-extra
然后就可以进行编译了,命令为
./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Psparkr -Phadoop-2.7 -Phive -Phive-thr
spark2.2.0编译及遇到的问题
最新推荐文章于 2021-09-10 19:54:35 发布

本文介绍了在特定环境下编译Spark 2.2.0的步骤,包括修改`make-distribution.sh`脚本,安装必要的依赖如pandoc和R包,以及针对SparkR的支持。在编译过程中可能遇到的Java版本不匹配、R包缺失、LaTeX依赖未安装等问题,文章提供了详细的解决方案,如切换Java版本、安装R包和LaTeX组件。
最低0.47元/天 解锁文章
2254

被折叠的 条评论
为什么被折叠?



