Spark2.4.5与Hadoop2.7的安装

目录

创建一个虚拟机

配置JDK(java8)

安装SSH登录

安装Hadoop2.7

Spark安装

配置Spark,使其与Hadoop能够组合使用

创建一个虚拟机

根据下面的链接,创建了一个虚拟机

https://blog.csdn.net/Baiye959/article/details/122886252?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168517574616800225595156%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168517574616800225595156&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-122886252-null-null.142^v88^insert_down1,239^v2^insert_chatgpt&utm_term=vmware%E5%88%9B%E5%BB%BAubuntu%E8%99%9A%E6%8B%9F%E6%9C%BA&spm=1018.2226.3001.4187

配置JDK(java8)

Windows主机上已经有的jdk-8u181-linux-x64.tar.gz

使用共享文件夹分享到ubuntu中

我使用的共享文件夹名称为:ubuntu-share

因此,共享的jdk文件路径在:/mnt/hgfs/ubuntu-share/

》sudo cp jdk-8u181-linux-x64.tar.gz /usr/local/java/

将改文件移动到/usr/local/java/目录下

进行解压:

》sudo tar -zxvf jdk-8u181-linux-x64.tar.gz

解压成功以后,出现jdk1.8.0_181文件夹

接下来配置jdk的环境变量:

》sudo vim /etc/profile

在打开的文件尾部添加如下内容

使配置文件生效:

》source /etc/profile

现在查看jdk的版本信息,输出如下内容则表明已经配置好环境了

》java --verison

安装SSH登录

集群、单节点模式都需要使用SSH登录(类似远程登录)

Ubuntu默认已经安装了SSH client,此外还需要安装SSH server:

》sudo apt-get install openssh-server

安装完毕,可以使用ssh登录本机

》ssh localhost

输入密码以后:

》exit

这样可以退出ssh链接

安装Hadoop2.7

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)_厦大数据库实验室博客

根据以上博客内容进行Hadoop2.7.1的安装

电脑上已有hadoop-2.7.1.tar.gz文件,使用共享文件夹与ubuntu虚拟机进行共享

进入/mnt/hgfs/ubuntu-share/目录

》sudo cp hadoop-2.7.1.tar.gz /usr/local/

将该文件复制到了/usr/local目录下

》sudo tar -zxf hadoop-2.7.1.tar.gz

解压该文件

解压完成以后,出现hadoop-2.7.1文件夹

》sudo rm -f hadoop-2.7.1.tar.gz

将多余的安装包删除

》sudo mv ./hadoop-2.7.1/ ./hadoop

将文件夹名改为hadoop

》sudo chown -R zhuluobigdata ./hadoop

修改文件权限

这里的zhuluobigdata是我的用户名,填入本机的用户名即可

Hadoop解压以后即可使用,可以通过以下命令来查看Hadoop是否可用

》cd ./hadoop/

》./bin/hadoop version

至此hadoop2.7.1已经在虚拟机上安装成功

还有单机模式、伪分布式等内容,在此先不进行操作

Spark安装

Index of /dist/spark/spark-2.4.5

打开上述apache官网页面下载spark的安装包

由于我们安装的Hadoop版本为2.7.1

因此,选择spark2.4.5与之相匹配

进入/mnt/hgfs/ubuntu-share/目录

》sudo cp spark-2.4.5-bin-hadoop2.7.tgz /usr/local/

将spark安装包复制到/usr/local目录下

》cd /usr/local

》sudo tar -xzf spark-2.4.5-bin-hadoop2.7.tgz

进入/usr/local目录下并解压

》sudo rm -f spark-2.4.5-bin-hadoop2.7.tgz

删除多余的安装包

现在/usr/local/目录下就有了spark的文件夹

接下来配置Spark的环境变量

》nano ~/.bashrc

使用nano工具修改.bashrc文件

在文件的最后添加如下的配置

# Set SPARK_HOME path

export SPARK_HOME=/usr/local/spark-2.4.5

# Add spark-* binaries to PATH

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存并关闭文件

》source ~/.bashrc

使用以上命令使配置生效

》spark-shell

执行以上命令验证Spark是否已经成功安装:

现在已经将spark运行起来了,并且出现了scala的输入行

输入表达式,scala计算结果为:

配置Spark,使其与Hadoop能够组合使用

先进入spark目录下,查看conf文件夹下的配置文件

》cd /usr/local/spark-2.4.5-bin-hadoop2.7/conf/

接下来拷贝配置文件模板,为spark进行配置

》sudo cp spark-env.sh.template ./spark-env.sh

将名为spark-env.sh.template的模板复制一份,作为spark的配置

编辑该文件,在文件的最后加上Hadoop的环境变量

》sudo vim spark-env.sh

在此,我将hadoop安装在了/usr/local/目录下

保存配置文件之后,就可以启动、运行Spark了

(若需要使用HDFS中的配置文件,则在使用Spark前需要启动Hadoop)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值