Spark2.4.5与Hadoop2.7的安装

猪猡猪猡猪

已于 2023-07-15 09:34:13 修改

阅读量436

点赞数

分类专栏：云计算文章标签： spark hadoop 大数据

于 2023-07-14 10:10:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53336526/article/details/131717423

版权

云计算专栏收录该内容

12 篇文章 0 订阅

订阅专栏

目录

创建一个虚拟机

配置JDK（java8）

安装SSH登录

安装Hadoop2.7

配置Spark，使其与Hadoop能够组合使用

创建一个虚拟机

根据下面的链接，创建了一个虚拟机

https://blog.csdn.net/Baiye959/article/details/122886252?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168517574616800225595156%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168517574616800225595156&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-122886252-null-null.142^v88^insert_down1,239^v2^insert_chatgpt&utm_term=vmware%E5%88%9B%E5%BB%BAubuntu%E8%99%9A%E6%8B%9F%E6%9C%BA&spm=1018.2226.3001.4187

配置JDK（java8）

Windows主机上已经有的jdk-8u181-linux-x64.tar.gz

使用共享文件夹分享到ubuntu中

我使用的共享文件夹名称为：ubuntu-share

因此，共享的jdk文件路径在：/mnt/hgfs/ubuntu-share/

》sudo cp jdk-8u181-linux-x64.tar.gz /usr/local/java/

将改文件移动到/usr/local/java/目录下

进行解压：

》sudo tar -zxvf jdk-8u181-linux-x64.tar.gz

解压成功以后，出现jdk1.8.0_181文件夹

接下来配置jdk的环境变量：

》sudo vim /etc/profile

在打开的文件尾部添加如下内容

使配置文件生效：

》source /etc/profile

现在查看jdk的版本信息，输出如下内容则表明已经配置好环境了

》java --verison

安装SSH登录

集群、单节点模式都需要使用SSH登录（类似远程登录）

Ubuntu默认已经安装了SSH client，此外还需要安装SSH server：

》sudo apt-get install openssh-server

安装完毕，可以使用ssh登录本机

》ssh localhost

输入密码以后：

》exit

这样可以退出ssh链接

安装Hadoop2.7

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)_厦大数据库实验室博客

根据以上博客内容进行Hadoop2.7.1的安装

电脑上已有hadoop-2.7.1.tar.gz文件，使用共享文件夹与ubuntu虚拟机进行共享

进入/mnt/hgfs/ubuntu-share/目录

》sudo cp hadoop-2.7.1.tar.gz /usr/local/

将该文件复制到了/usr/local目录下

》sudo tar -zxf hadoop-2.7.1.tar.gz

解压该文件

解压完成以后，出现hadoop-2.7.1文件夹

》sudo rm -f hadoop-2.7.1.tar.gz

将多余的安装包删除

》sudo mv ./hadoop-2.7.1/ ./hadoop

将文件夹名改为hadoop

》sudo chown -R zhuluobigdata ./hadoop

修改文件权限

这里的zhuluobigdata是我的用户名，填入本机的用户名即可

Hadoop解压以后即可使用，可以通过以下命令来查看Hadoop是否可用

》cd ./hadoop/

》./bin/hadoop version

至此hadoop2.7.1已经在虚拟机上安装成功

还有单机模式、伪分布式等内容，在此先不进行操作

Spark安装

Index of /dist/spark/spark-2.4.5

打开上述apache官网页面下载spark的安装包

由于我们安装的Hadoop版本为2.7.1

因此，选择spark2.4.5与之相匹配

进入/mnt/hgfs/ubuntu-share/目录

》sudo cp spark-2.4.5-bin-hadoop2.7.tgz /usr/local/

将spark安装包复制到/usr/local目录下

》cd /usr/local

》sudo tar -xzf spark-2.4.5-bin-hadoop2.7.tgz

进入/usr/local目录下并解压

》sudo rm -f spark-2.4.5-bin-hadoop2.7.tgz

删除多余的安装包

现在/usr/local/目录下就有了spark的文件夹

接下来配置Spark的环境变量

》nano ~/.bashrc

使用nano工具修改.bashrc文件

在文件的最后添加如下的配置

# Set SPARK_HOME path

export SPARK_HOME=/usr/local/spark-2.4.5

# Add spark-* binaries to PATH

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存并关闭文件

》source ~/.bashrc

使用以上命令使配置生效

》spark-shell

执行以上命令验证Spark是否已经成功安装：

现在已经将spark运行起来了，并且出现了scala的输入行

输入表达式，scala计算结果为：

配置Spark，使其与Hadoop能够组合使用

先进入spark目录下，查看conf文件夹下的配置文件

》cd /usr/local/spark-2.4.5-bin-hadoop2.7/conf/

接下来拷贝配置文件模板，为spark进行配置

》sudo cp spark-env.sh.template ./spark-env.sh

将名为spark-env.sh.template的模板复制一份，作为spark的配置

编辑该文件，在文件的最后加上Hadoop的环境变量

》sudo vim spark-env.sh

在此，我将hadoop安装在了/usr/local/目录下

保存配置文件之后，就可以启动、运行Spark了

（若需要使用HDFS中的配置文件，则在使用Spark前需要启动Hadoop）

猪猡猪猡猪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark2.4.5与Hadoop2.7的安装

将名为spark-env.sh.template的模板复制一份，作为spark的配置。因此，共享的jdk文件路径在：/mnt/hgfs/ubuntu-share/在此，我将hadoop安装在了/usr/local/目录下。现在/usr/local/目录下就有了spark的文件夹。进入/mnt/hgfs/ubuntu-share/目录。进入/mnt/hgfs/ubuntu-share/目录。将改文件移动到/usr/local/java/目录下。将spark安装包复制到/usr/local目录下。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。