Ubuntu系统基于分布式hadoop安装spark

Edge_Code

已于 2022-04-20 15:54:55 修改

阅读量2.5k

点赞数 2

文章标签： spark 大数据 ubuntu linux

于 2022-04-20 15:35:01 首次发布

本文链接：https://blog.csdn.net/weixin_42141873/article/details/124297654

版权

Ubuntu系统基于分布式hadoop安装spark

之前的文章中我们已经部署好了hadoop集群
首先打开三个虚拟机，现在我们需要安装Scala，因为Spark是基于Scala开发的，所以需要安装Scala。在Ubuntu下安装Scala很简单，我们只需要运行

sudo apt-get install scala

就可以安装Scala了。

安装完成后运行scala -version可以看到安装的Scala的版本，我现在2.11版，安装目录是在/usr/share/scala-2.11 。
接下来下载Spark。到官方网站，找到最新版的Spark的下载地址，选择Hadoop版本，

http://spark.apache.org/downloads.html

wget https://dlcdn.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz

这里是我的下载链接
当下载完毕后解压文件：

tar xvf spark-3.2.1-bin-hadoop3.2.tgz

接下来我们需要将解压的文件夹移动到指定目录，因为之前我们Hadoop安装到/usr/local/hadoop，所以我们也可以把Spark放在/usr/local/spark下：

sudo mv spark-3.2.1-bin-hadoop3.2.tgz /usr/local/spark

进入spark文件夹下的conf文件夹，里面有个spark-env.sh.template文件，是spark环境变量设置的目标，我们可以复制一个出来：

cp spark-env.sh.template spark-env.sh

然后编辑该文件

vim spark-env.sh

在文件的末尾我们添加上以下内容：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Edge_Code

关注关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Ubuntu从零安装 Hadoop And Spark

weixin_45573921的博客

05-09

2003

安装 linux 以Ubuntu为例选择镜像，虚拟机安装虚拟机下，直接安装镜像即可，选择好自己的配置，一定要注意路径名选好，而且和你虚拟机的名称匹配，这里我的镜像是 ubuntu-20.04.2.0-desktop-amd64.iso 安装 Hadoop 安装 Spark，并使用PySpark测试 ...

ubuntu下Hadoop以及Spark的伪分布式安装：一

03-30

1141

很多初学者在安装的时候会碰到各种各样的问题，尤其各种版本的搭配问题。所以特意做一个初步安装的引导，希望大家都能一次调试出来。经过测试，jdk11 + scala2.13.13 + hadoop3.3.6+spark3.5.1，这是暂时来说scalsa2能支持的最完美的搭配。Hadoop能支持到的java最完美的最后版本为jdk11，后面的版本也可以使用，但是java 11后面的版本去掉了javax.activation，导致无法浏览服务端的文件夹以及文件。

参与评论您还未登录，请先登录后发表或查看评论

ubuntu中Hadoop和Spark平台的安装

jiuweideqixu的博客

08-21

822

软硬件环境名称版本系统 Ubuntu 18.04.4 LTS 内存 7.5GiB 处理器 Intel Core i7-8565U CPU @ 1.80GHz *8 图形 Intel UHD Graphics（Whiskey Lake 3*8 GT2） GNOME 3.28.2 操作系统类型 64位磁盘 251.0 GB Hadoop 2.10.0 Spark 2.3.4 步骤 ①...

Ubuntu 18.04 搭建Hadoop和spark

Loser930728的博客

07-31

2551

本文介绍如何在Ubuntu18.04上搭建Hadoop以及spark，供单机测试用。准备包： jdk-8u101-linux-x64.gz hadoop-2.7.7.tar.gz scala-2.11.8.tgz spark-2.3.1-bin-hadoop2.7.tgz 搭建过程中没有必要使用root用户搭建，放在home文件夹下即可。 1.配置无密码登录本机安装...

ubuntu下hadoop,spark配置

weixin_30515513的博客

11-05

235

转载来自：http://www.cnblogs.com/spark-china/p/3941878.html 在VMWare 中准备第二、第三台运行Ubuntu系统的机器；在VMWare中构建第二、三台运行Ubuntu的机器和构建第一台机器完全一样，再次不在赘述。。与安装第一台Ubuntu机器不同的几点是：第一点：我们把第二、三台Ubuntu机器命名为了Slav...

安装Hadoop及Spark for Ubuntu 16.04

HuFeiHu

11-10

396

安装JDK 下载jdk(以jdk-8u91-Linux-x64.tar.gz为例) 新建文件夹 sudo mkdir /usr/lib/jvm 解压下载的jdk文件并移动到新建的文件夹下 sudo tar -xzvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jvm 进入jvm文件夹并重命名解压出来的文件夹 cd /usr/lib

hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop

09-14

标题中的"hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop"表明这个压缩包包含了与在Ubuntu操作系统上安装和使用Hadoop和HDFS相关的资料。Ubuntu是一个广泛使用的Linux发行版，适合部署大型分布式系统如...

分布式hadoop与spark集群搭建[汇编].pdf

10-12

本篇文档主要介绍了如何在Linux环境下搭建一个基于Hadoop和Spark的分布式集群，涉及了基本的系统配置、网络设置、SSH无密码登录以及Java环境的配置。首先，为了确保系统的安全性和方便管理，需要设置root用户并...

Hadoop（伪分布式）+Spark（local模式）搭建Hadoop和Spark组合环境

m0_60154718的博客

03-15

4632

一、安装Hadoop 二、安装Spark

基于Hadoop3.2伪分布式安装Spark3.0

piaoxi6587的博客

12-12

1383

在安装Spark3.0之前我们需要先安装Hadoop3.2。 Hadoop 3.2伪分布式安装安装Java JDK并配置好Java_HOME环境变量 Hadoop3.0之后的版本只支持Java8以后的版本。下载完jdk解压之后放置于’/usr/lib/jvm’下面（目录可以更改），下载完之后在‘/etc/profile’中配置相关的环境变量 export JAVA_HOME=/usr/lib/j...

ubuntu安装spark 2.1.0

最新发布

03-30

582

因为使用root用户运行，所以需要在./sbin目录中修改start-yarn.sh和stop-yarn.sh两个文件。如果没有NodeManager和ResourceManager，则需要修改yarn-env.sh，在文件中添加如下三行。注：上面的localhost可以改成具体的IP地址，或者0.0.0.0，就可以从任意地址访问了。如果启动yarn后，能在浏览目录中发现tmp文件夹，说明安装成功。#下面这条命令在新服务器中无法使用了，需要改成下面的新命令。此tmp是网页的逻辑地址，须使用"/"

【大数据】——Ubuntu14.04 安装hadoop/spark/scala教程

汤庆

08-29

924

需要的软件: 大体步骤（注意本文所有软件均安装在home/hadoop 文件夹下，下文不在提示）安装ubuntu操作系统安装JDK，配置环境变量安装scala，配置环境变量备份系统，需要几个节点，就克隆几份对管理节点设置IP，登录名和hosts文件，对每个工作节点设置设置IP，登录名和hosts文件安装ssh 安装hadoop 配置环境变量，修改配置文件，通过...

spark安装_Ubuntu16.04 多节点集群的 Spark 及 Hadoop HDFS 安装、配置及运行（二）

weixin_40001442的博客

11-26

156

0x00 前言本文是Spark + HDFS 系统的第二篇文章，第一篇介绍了Spark 以及Hadoop 的安装，在本文章（二）中会介绍如何在多节点的集群上进行设置以及部署。*文章中部分名词在解释概念时因方便读者理解并没有采用 Spark/HDFS 的专用名词，采用了便能意会的词汇如 master/slave 等。0x01 前置工作Spark 和 HDFS 的部署十分简单，但是我们需要做一些设置。...

hadoop与spark环境搭建命令简易教程（Ubuntu18.04）

weixin_43312063的博客

05-29

690

hadoop与spark环境搭建命令（Ubuntu18.04）Hadoop一.single node cluster二.multi node cluster三.快速版（远程复制）Spark：一、单机版二、spark standalone三、Yarn上运行 Hadoop 一.single node cluster 1.安装jdk java -version #查看java版本 sudo apt-get update sudo apt install openjdk-8-jdk-headless （推荐1.8

ubantu+hadoop+spark+scale分布式数据分析框架搭建

m0_56022510的博客

11-26

4002

ubantu+hadoop+spark+scale分布式数据分析框架搭建

Ubuntu配置Hadoop——（七）安装配置Spark

yao09605的博客

01-11

183

本系列最后一篇 spark是可以发布到hadoop上运行的数据分析工具。 spark是去官网上下载，地址：http://spark.apache.org/downloads.html 然后解压缩 $ tar -xvf spark-1.5.2-bin-hadoop2.4.tgz $ sudo mv spark-1.5.2-bin-hadoop2.4 /srv/spark-1.5.2 $ ln -s ...

Ubuntu安装搭建Hadoop spark 单机版本

xiameimei_win的博客

11-29

352

1、查看当前Ubuntu的Java版本 Java -version 2、查看Java的安装路径 update-alternatives --display java 3、查看ubuntu的版本 uname -a 4、下载Hadoop 2.6.4 版本 wget https://archive.apache.org/dist/hadoop/common/had...

Spark 3.x各模式部署 - Ubuntu

微光点亮星辰

03-31

898

本文关键字：Spark、单机模式、为分布式、全分布式、Ubuntu。Spark是一种计算框架，可以使用简单的编程模型对大型数据集进行快速、通用、分布式处理。

Ubuntu16.04伪分布式Hadoop3.1.3大数据集群配置指南

"提供了一个基于Ubuntu 16.04的伪分布式Hadoop 3.1.3大数据集群环境，该环境预装了包括Hadoop、HBase、MySQL、Hive、Scala、Spark、Flink和Maven等一系列大数据处理相关的组件。虚拟机镜像是ova格式，适用于...