Hadoop Ubuntu系统搭建攻略全详细！！！附带Hadoop搭建成功后测试案例

最新推荐文章于 2021-12-29 22:03:11 发布

lose2017

最新推荐文章于 2021-12-29 22:03:11 发布

阅读量339

点赞数

分类专栏： Ubuntu大数据Hadoop 文章标签： hadoop 大数据 nosql ubuntu

本文链接：https://blog.csdn.net/lose2017/article/details/106804255

版权

Ubuntu大数据Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hadoop Ubuntu系统搭建攻略全详细！！！附带Hadoop搭建成功后测试案例

Hadoop搭建教程
一、需要安装的工具：
1.首先确保虚拟机能连上网。
2.更新源列表：
sudo apt-get update
sudo apt-get upgrade
3.安装vm-tool
sudo apt install open-vm-tools-desktop
4.sudo apt install net-tools
5.sudo apt install vim
6.sudo apt install ssh

二、配置虚拟机
1.修改主机名：把主机名ubuntu改为master（在从主机上则改为slave)
sudo gedit /etc/hostname
2.修改hosts文件：sudo gedit /etc/hosts，添加如下内容：
192.168.232.200 master
192.168.232.201 slave
注意：不能放在最下边，从注释行开始往下是配置ipv6的，ip和域名之间必须是一个tab，且域名后不能有空格，否则是ping不通的。
3.重启网络
sudo /etc/init.d/networking restart
4.防火墙设置
查看防火墙状态：
sudo ufw status
关闭虚拟机的防火墙
sudo ufw disable
inactive状态是防火墙关闭状态，active是开启状态。
systemctl stop firewalld.service
systemctl disable firewalld.service

三、安装SSH服务
1.安装ssh
sudo apt-get install ssh
或者
apt-get install openssh-server
2.查看ssh服务是否启动
sudo ps -e |grep ssh
看到sshd则说明服务启动了。如果没有启动，运行下面的指令启动服务。
sudo service ssh start

四、建立ssh免密登录
1、使用rsa算法生成秘钥和公钥：
ssh-keygen -t rsa
运行后会在~/.ssh/下生成两个文件：id_rsa和id_rsa.pub这两个文件是成对出现的。
2、进入.ssh/目录下，将id_rsa.pub追加到authorized_keys授权文件中
cd .ssh
cat id_rsa.pub >>authorized_keys
chmod 600 authorized_keys
3、测试登录本机，及退出登录
ssh localhost
exit
完全分布式才需要下面的步骤4和步骤5
4、克隆出从机slave。
1)需要修改hostname为slave并配置IP地址
2)需要删除.ssh目录并重复上述1~3步骤，实现免密登录本机。
5、配置master免密登陆slave：（需要先在master和slave上都实现本机免密）
1)把master的id_rsa.pub拷到slave的home下:
scp id_rsa.pub lusm@slave:~/
2)slave的home目录下输入命令
cat id_rsa.pub >> .ssh/authorized_keys
3)测试master免密登录slave
ssh slave
exit
6、slave到master的免密。
1)把slave的id_rsa.pub拷到master的home下:
scp id_rsa.pub lusm@master:~/
2)master的home目录下输入命令
cat id_rsa.pub >> .ssh/authorized_keys

第5步可以用ssh-copy-id实现：
ssh-copy-id -I id_rsa.pub gdsdxy@slave

五、配置环境变量
1、下载jdk和hadoop源文件：
Jdk-11.0.2：https://www.oracle.com/technetwork/java/javase/downloads/index.html
Hadoop-2.7.7：https://hadoop.apache.org/release/2.7.7.html
2、创建hadoop目录（路径：usr/loacl/hadoop），并将下载的源文件提取（解压缩）到新建的hadoop目录中。
sudo mv ./hadoop/ /usr/local # 将文件夹hadoop
cd /usr/local # 定位到/usr/local
sudo chown -R lusm ./hadoop # 修改目录所有者
3、配置jdk和hadoop的环境变量：
sudo gedit /etc/profile
在打开的profile文件中添加下面内容：
export JAVA_HOME=/usr/local/hadoop/jdk-11.0.2
export PATH= $JAVA_HOME/bin:$ PATH
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.7
export PATH= $HADOOP_HOME/bin:$ HADOOP_HOME/sbin:$PATH
4、使用以下命令，在不用重启系统的情况下，使修改的内容生效：
source /etc/profile
或者
. /etc/profile
5、测试环境变量
echo $PATH
java -version
hadoop version
修改 .bashrc 文件是在当前用户shell 下生效并且修改这个文件之后同样也需要使用 source 或者是 . 使配置文件生效。

六、配置hadoop
如果用户没有设置，系统默认采用的配置，优先级 *-default.xml < *-site.xml
Hadoop默认配置：https://hadoop.apache.org/docs/r2.7.7/
core-default.xml
hdfs-default.xml
mapred-default.xml
yarn-default.xml
*-site.Xml配置步骤：
1、在/usr/local/hadoop/hadoop-2.7.7文件夹里面先创建3个文件夹（目录）：
cd /usr/local/hadoop/hadoop-2.7.7
sudo mkdir -p tmp
sudo mkdir -p tmp/dfs/name
sudo mkdir -p tmp/dfs /data
2、先进入配置文件的路径：
cd /usr/local/hadoop/hadoop-2.7.7/etc/hadoop
我们将依次编辑如下6个文件，完成伪分布式hadoop的搭建：
1)core-site.xml
2)hdfs-site.xml
3)hadoop-env.sh
4)mapred-site.xml.template
5)yarn-site.xml
6)yarn-env.sh
1)配置core-site.xml文件
sudo gedit core-site.xml
在中加入以下代码：

2)配置hdfs-site.xml
sudo gedit hdfs-site.xml
在中加入以下代码

3)配置 hadoop-env.sh文件
sudo gedit hadoop-env.sh
export JAVA_HOME=/usr/local/hadoop/jdk-11.0.2
4)配置mapred-site.xml.template
复制mapred-site.xml.template文件，并命名为mapred-site.xml：
cp mapred-site.xml.template mapred-site.xml
sudo gedit mapred-site.xml
在中加入以下代码

5)配置yarn-site.xml
sudo gedit yarn-site.xml
在标签中添加以下代码

6)配置 yarn-env.sh
sudo gedit yarn-env.sh
export JAVA_HOME=/usr/local/hadoop/jdk-11.0.2
3、配置slaves 文件
sudo gedit slaves
把原本的localhost删掉，改为slave
4、如果要搭建完全分布式的hadoop，需要克隆slave。slave克隆出来后需要设置，参看ssh免密第4步骤
5、初始化hadoop
hdfs namenode –format 注意：格式化只能做一次
6、开启hadoop
两种方法：
start-all.sh
先start-dfs.sh,再start-yarn.sh
如果在mater上面键入jps后看到

在slave上键入jps后看到

则说明集群搭建成功

七、最后用自带的样例测试hadoop集群能不能正常跑任务

1、添加新用户t1：
sudo useradd –d /home/t1 –m –g sudo t1
2、设置t1密码：
sudo passswd t1
3、修改主目录所有者：
sudo chown -R t1 /home/t1

sudo /etc/init.d/networking restart
sudo useradd t1
usermod –g sudo t1
sudo passswd t1
sudo chown -R t1 /home/t1

使用命令:hadoop jar /home/t1/hadoop/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar pi 10 10用来求圆周率，pi是类名，第一个10表示Map次数，第二个10表示随机生成点的次数
最后出现结果

则，恭喜你，hadoop集群搭建完成.