目录
创建一个虚拟机
根据下面的链接,创建了一个虚拟机
https://blog.csdn.net/Baiye959/article/details/122886252?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168517574616800225595156%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168517574616800225595156&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-122886252-null-null.142^v88^insert_down1,239^v2^insert_chatgpt&utm_term=vmware%E5%88%9B%E5%BB%BAubuntu%E8%99%9A%E6%8B%9F%E6%9C%BA&spm=1018.2226.3001.4187
配置JDK(java8)
Windows主机上已经有的jdk-8u181-linux-x64.tar.gz
使用共享文件夹分享到ubuntu中
我使用的共享文件夹名称为:ubuntu-share
因此,共享的jdk文件路径在:/mnt/hgfs/ubuntu-share/
》sudo cp jdk-8u181-linux-x64.tar.gz /usr/local/java/
将改文件移动到/usr/local/java/目录下
进行解压:
》sudo tar -zxvf jdk-8u181-linux-x64.tar.gz
解压成功以后,出现jdk1.8.0_181文件夹
接下来配置jdk的环境变量:
》sudo vim /etc/profile
在打开的文件尾部添加如下内容
使配置文件生效:
》source /etc/profile
现在查看jdk的版本信息,输出如下内容则表明已经配置好环境了
》java --verison
安装SSH登录
集群、单节点模式都需要使用SSH登录(类似远程登录)
Ubuntu默认已经安装了SSH client,此外还需要安装SSH server:
》sudo apt-get install openssh-server
安装完毕,可以使用ssh登录本机
》ssh localhost
输入密码以后:
》exit
这样可以退出ssh链接
安装Hadoop2.7
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)_厦大数据库实验室博客
根据以上博客内容进行Hadoop2.7.1的安装
电脑上已有hadoop-2.7.1.tar.gz文件,使用共享文件夹与ubuntu虚拟机进行共享
进入/mnt/hgfs/ubuntu-share/目录
》sudo cp hadoop-2.7.1.tar.gz /usr/local/
将该文件复制到了/usr/local目录下
》sudo tar -zxf hadoop-2.7.1.tar.gz
解压该文件
解压完成以后,出现hadoop-2.7.1文件夹
》sudo rm -f hadoop-2.7.1.tar.gz
将多余的安装包删除
》sudo mv ./hadoop-2.7.1/ ./hadoop
将文件夹名改为hadoop
》sudo chown -R zhuluobigdata ./hadoop
修改文件权限
这里的zhuluobigdata是我的用户名,填入本机的用户名即可
Hadoop解压以后即可使用,可以通过以下命令来查看Hadoop是否可用
》cd ./hadoop/
》./bin/hadoop version
至此hadoop2.7.1已经在虚拟机上安装成功
还有单机模式、伪分布式等内容,在此先不进行操作
Spark安装
Index of /dist/spark/spark-2.4.5
打开上述apache官网页面下载spark的安装包
由于我们安装的Hadoop版本为2.7.1
因此,选择spark2.4.5与之相匹配
进入/mnt/hgfs/ubuntu-share/目录
》sudo cp spark-2.4.5-bin-hadoop2.7.tgz /usr/local/
将spark安装包复制到/usr/local目录下
》cd /usr/local
》sudo tar -xzf spark-2.4.5-bin-hadoop2.7.tgz
进入/usr/local目录下并解压
》sudo rm -f spark-2.4.5-bin-hadoop2.7.tgz
删除多余的安装包
现在/usr/local/目录下就有了spark的文件夹
接下来配置Spark的环境变量
》nano ~/.bashrc
使用nano工具修改.bashrc文件
在文件的最后添加如下的配置
# Set SPARK_HOME path
export SPARK_HOME=/usr/local/spark-2.4.5
# Add spark-* binaries to PATH
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
保存并关闭文件
》source ~/.bashrc
使用以上命令使配置生效
》spark-shell
执行以上命令验证Spark是否已经成功安装:
现在已经将spark运行起来了,并且出现了scala的输入行
输入表达式,scala计算结果为:
配置Spark,使其与Hadoop能够组合使用
先进入spark目录下,查看conf文件夹下的配置文件
》cd /usr/local/spark-2.4.5-bin-hadoop2.7/conf/
接下来拷贝配置文件模板,为spark进行配置
》sudo cp spark-env.sh.template ./spark-env.sh
将名为spark-env.sh.template的模板复制一份,作为spark的配置
编辑该文件,在文件的最后加上Hadoop的环境变量
》sudo vim spark-env.sh
在此,我将hadoop安装在了/usr/local/目录下
保存配置文件之后,就可以启动、运行Spark了
(若需要使用HDFS中的配置文件,则在使用Spark前需要启动Hadoop)