百度网盘下载 大数据平台搭建 文件
一、虚拟机下载及安装(VMware)
官方网址:https://www.vmware.com/cn/products/workstation-pro/workstation-pro-evaluation.html
虚拟机的安装与许可证可以直接搜索得到
二、下载Ubuntu 22.04镜像文件,并在VMware中添加虚拟机。
可以通过百度网盘下载 大数据平台搭建 文件
三、安装Ubuntu 22.04系统
设置主机名、计算机名、用户名和密码
完成安装并完成重启后,在重启过程中需注意按enter
四、镜像源修改
将镜像源修改为阿里云或其他镜像源,可加快下载速度
完成重新载入后进入终端(ctrl+alt+t)输入以下语句完成更新,并安装vim编辑器
sudo apt-get update
sudo apt-get upgrade
sudo apt-get install vim
五、Hadoop伪分布搭建
1、直接使用创建虚拟机时的用户进行hadoop安装
2、配置SSH,并设置无密码登录
(1)下载SSH
1.安装SSH server
sudo apt-get install openssh-server
2.连接到本地SSH
ssh localhost
先输入yes,再输入密码
其中localhost为在安装Ubuntu时设置的计算机名,如果使用默认生成的计算机名,则输入此代码,若对默认生成的计算机名修改,则使用修改过后的计算机名
(2)设置无密码登录
1.首先退出SSH
exit
2.进入ssh目录
cd ~/.ssh/
3.输入生成SSH私钥与公钥的命令,输入三次回车即可完成无密码登录设置:
ssh-keygen -t rsa
4.将生成的SSH的公钥加入目标机器的SSH目录下
cat ./id_rsa.pub >> ./authorized_keys
3、安装Java并配置环境变量
(1)默认下载jdk
sudo apt-get install default-jre default-jdk
(2)配置环境变量
1.使用vim配置打开文件
sudo vim ~/.bashrc
2.在文件尾部加上以下语句
export JAVA_HOME=/usr/lib/jvm/default-java
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
进入文件后先输入i开始编辑,将代码插入后点击Esc,后输入:wq三个字符,即可保存退出
3.输入以下代码使环境变量生效
source ~/.bashrc
4、安装hadoop并配置环境
(1)将下载的hadoop文件解压到/usr/local目录下并修改文件名为hadoop
sudo tar -zxf /home/zhuyuze/下载/hadoop-2.7.7.tar.gz -C /usr/local
cd /usr/local
sudo mv ./hadoop-2.7.7/ ./hadoop
(2)配置环境
1.将用户名zhuyuze的权限指定给hadoop文件夹
sudo chown -R zhuyuze ./hadoop
2.配置环境变量
cd ./hadoop/etc/hadoop
sudo vim hadoop-env.sh
在文件最后添加下列语句
export JAVA_HOME=/usr/lib/jvm/default-java
保存退出(Esc+:wq),然后使环境变量生效
source hadoop-env.sh
(3)调用版本号测试hadoop是否可用
cd /usr/local/hadoop/bin
./hadoop version
显示以下内容即表示hadoop可用
(4)配置文件修改
首先,需要修改路径
cd /usr/local/hadoop/etc/hadoop
1.core-site.xml
打开core-site.xml
sudo gedit core-site.xml
文件修改
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
2.hdfs-site.xml
打开hdfs-site.xml文件
sudo gedit hdfs-site.xml
文件修改
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
3.mapred-site.xml
将样本文件复制为可使用的配置文件
mv mapred-site.xml.template mapred-site.xml
打开文件
sudo gedit mapred-site.xml
更改文件
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
4.yarn-site.xml
打开文件
sudo gedit yarn-site.xml
修改文件
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
6、格式化并启动
(1)格式化
/usr/local/hadoop/bin/hdfs namenode -format
出现以下内容,说明格式化成功
(2)启动全部进程并查看进程
cd /usr/local/hadoop/sbin
start-all.sh
jps
通过jps可以查看进程的运行(共6个进程,如出现某一进程未启动可自行搜索解决方法)
在虚拟机中进入浏览器输入网址:http://localhost:50070,出现如下界面即启动成功
7、如果出现Hadoop环境启动不起来,则可使用以下方法进行修改
cd /usr/local/hadoop/etc/hadoop
sudo vim hadoop-env.sh
在文件末尾输入以下内容
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
保存退出后输入以下命令使输入的内容生效
source hadoop-env.sh
重新进行节点格式化
/usr/local/hadoop/bin/hdfs namenode -format
重新启动hadoop即可,并通过jps查看进程
cd /usr/local/hadoop/sbin
./start-all.sh
jps