Hadoop安装教程_单机配置_Hadoop1.2.1/Ubuntu16.04

本文链接：https://blog.csdn.net/Forward__/article/details/78573623

Hadoop安装教程_单机配置_Hadoop1.2.1/Ubuntu16.04

最近在自己的Ubantu16.04安装Hadoop，折腾了一天，参考了一些教程，也遇到了一些坑，最后终于搞定了，在这里分享一下经验和过程。
当开始着手实践 Hadoop 时，安装 Hadoop 往往会成为新手的一道门槛。尽管安装其实很简单，书上有写到，官方网站也有 Hadoop 安装配置教程，但由于对 Linux 环境不熟悉，书上跟官网上简略的安装步骤新手往往 Hold 不住。加上网上不少教程也甚是坑，导致新手折腾老几天愣是没装好，很是打击学习热情。
## 应用环境：
系统：Ubantu16.04
软件：JDK1.8.0_131 、Hadoop1.2.1 、SSH

SSH下载配置：

集群、单节点模式都需要用到 SSH 登陆（类似于远程登陆，你可以登录某台 Linux 主机，并且在上面运行命令），Ubuntu 默认已安装了 SSH client，此外还需要安装 SSH server：
sudo apt-get install openssh-server
首先删除~/.ssh目录下的3个文件，如下
id_rsa
authorized_keys
id_rsa.pub
然后
exit 　　# 退出刚才的 ssh localhost
cd ~/.ssh/ 　　 # 若没有该目录，请先执行一次ssh localhost
ssh-keygen -t rsa 　　 # 会有提示，都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys 　　 # 加入授权
再次启动ssh localhost就行了

切换用户：

首先进入的是非root（为避免运行hadoop过程中的权限问题，本人开始非root用户进行的一系列操作，最后导致hadoop在创建文件夹时各种文件创建不成功，运行不成功）
默认进入非root用户
“sudo su”命令切换进root用户
这里写图片描述

安装及配置JDK：

安装及配置JDK就不说细节了（网上有很多教程），主要包括JDK的安装和环境变量配置。有没有成功需要最后验证:

这里写图片描述
说明JDK环境变量已经安装ok。

安装Hadoop：

命令行：wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
下载Hadoop
下载完成后解压压缩：
tar -zxvf hadoop-1.2.1.tar.gz
进入到hadoop文件下：
这里写图片描述

hadoop环境变量

命令行：vi /etc/profile
输入 export PATH=/opt/hadoop-1.2.1/bin:$PATH(根据自己解压缩的路径配置)
这里写图片描述
完成后执行命令行：source /etc/profile,使配置生效
命令行输入hadoop，出现下图显示，证明hadoop正确的安装
###启动Hadoop验证

配置Hadoop：

需要配置的hadoop conf文件为：
mapred-site.xml core-site.xml hadoop-env.sh hdfs-site.xml;

core-site.xml配置

<property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/hadoop/tmp</value>
</property>
<property>
    <name>fs.default.name</name>
    <value>hdfs://hello-Lenove-G510:9000</value>
</property>
<!--注：hello-Lenove-G510是我的主机名，直接替换掉就可以-->

hadoop-env.sh配置

export JAVA_HOME=/usr/lib/jvm/java-8-oracle

mapred-site.xml配置

<property>
    <name>mapred.job.tracker</name>
    <value>hello-Lenovo-G510:9001</value>
</property>

hdfs-site.xml配置

<property>
    <name>dfs.data.dir</name>
    <value>/hadoop/data</value>
</property>

启动Hadoop测试：

接下来在启动hadoop之前需要格式化hdfs。命令：hadoop namenode -format
启动命令：start-all.sh；验证命令：jps

启动后，看到DataNode SecondaryNameNode JobTraker Jps NameNode TaskTracker等任务顺利启动，说明大功告成。

遇到的坑总结：

由于解决的过程描述还不是很详尽，简单说下遇到胡坑
1 不适某一个帖子就适合你，我按照一个描述详尽的帖子操作，最后的任务 JobTraker 和NameNode任务一直没有启动起来，后来修改了一些4个文件里的配置，才ok.
2 Hadoop启动需要SSH连接，所以需要你的电脑装有SSH,并且按照SSH要求去配置，如果你的Hadoop安装在远程主机，那么要配置密钥，如果安装在本地自己的机器上，需要设置免密登录，不然启动的时候会连接或拒绝的问题
3 学会看logs，Hadoop的日志在Hadoop 解压一级目录下的logs目录下，有时候出问题，但是console并没有详细的提示，不要无头苍蝇一样的猜测，看看日志就找到问题了，(配置的时候，我在控制台只得到了fail的结果，没有详细的哪里有问题的提示，查找log帮我定位了问题，明确了解决的方向)。
希望对大家有帮助，有些问题的过程细节没有贴出来。