在linux下spark环境搭建

最新推荐文章于 2023-02-04 09:09:27 发布

我卡在门缝里了>_<

最新推荐文章于 2023-02-04 09:09:27 发布

阅读量679

点赞数

分类专栏：大数据大数据spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_44494957/article/details/109100418

版权

本文档详细介绍了如何在Linux系统中搭建Spark环境，包括基础环境准备、下载安装文件、配置Spark及其环境变量，以及验证安装成功。特别强调了在没有Hadoop的情况下，Spark仅能访问本地文件系统，而配置相关文件后，Spark可读取Hadoop的HDFS数据。最后，文章提到了如何在Spark Shell中运行代码进行验证。

摘要由CSDN通过智能技术生成

文章目录

安装Spark

1 基础环境

Spark支持4种不同类型的部署方式，包括：
Local模式：单机模式
Standalone模式：使用Spark自带的简单集群管理器
YARN模式：使用YARN作为集群管理器
Mesos模式：使用Mesos作为集群管理器

Spark可以独立安装使用，也可以和Hadoop一起安装使用。安装了Hadoop后，就可以让Spark使用HDFS存取数据。，不安装Hadoop，Spark只能访问本地文件系统数据。需要说明的是，当安装好Spark以后，里面就自带了scala环境，不需要额外安装scala。

本实验采用Spark访问本地文件系统数据。安装Spark之前需要安装Linux系统、Java环境。经过上面的步骤以后，就在单台机器上按照“Spark（Local模式）”这种方式完成了Spark环境的搭建。

2 下载安装文件

Spark安装包下载地址： http://spark.apache.org.
进入下载页面后，点击主页右侧的“Download Spark”按钮进入下载页面，下载页面中提供了几个下载选项，主要是Spark release及Package type的选择，如下图所示。第1项Spark release一般默认选择最新的发行版本，截至2018年4月份的最新版本为2.3.0（本教程采用2.1.0）。第2项package type则选择“Pre-build with user-prov