创建hadoop用户
首先打开终端窗口输入如下命令,创建新用户
sudo useradd -m hadoop -s /bin/bash
这条命令创建了可以登陆的
hadoop
用户,并使用
/bin/bash
作为
shell
sudo 命令
sudo
是
ubuntu
中一种权限管理机制,管理
员可以授权给一些普通用户去执行一些需要
root
权限执行的操作。当使用
sudo
命令时,就需要输入您当前用户的密码
密码
在
Linux
的终端中输入密码,终端是不会显示任何你当前输入的密码,也不会
提示你已经输入了多少字符密码。而在
windows
系统中
,
输入密码一般都会以
“*”
表示你输入的密码字符.
输入法中英文切换
ubuntu
中终端输入的命令一般都是使用英文输入。
linux
中英文的切换方式是
使用键盘
“shift”
键来切换,也可以点击顶部菜单的输入法按钮进行切换。
ubuntu
自带的
Sunpinyin
中文输入法已经足够读者使用
Ubuntu
终端复制粘贴快捷键
在
Ubuntu
终端窗口中,复制粘贴的快捷键需要加上
shift
,即粘贴是
ctrl+shift+v
。(如果是vm配置的虚拟机需要安装vm-tools)
接着使用如下命令设置密码,可简单设置为
hadoop
,按提示输入两次密码:
sudo passwd hadoop
可为
hadoop
用户增加管理员权限,方便部署,避免一些对新手来说比较棘手
的权限问题
sudo adduser hadoop sudo
最后注销当前用户(点击屏幕右上角的齿轮,选择注销),返回登陆界面。在
登陆界面中选择刚创建的
hadoop
用户进行登陆。
用
hadoop
用户登录后,我们先更新一下
apt
,后续我们使用
apt
安装软
件,如果没更新可能有一些软件安装不了。按
ctrl+alt+t
打开终端窗口,执行
如下命令:
sudo apt-get update
配置ssh无密码登录
sudo apt-get install openssh-server
#如果已经下载过可不再下载
#使用如下命令,首次登录会需要验证输入yes即可
ssh localhost
#然后退出保存密钥
exit # 退出刚才的 ssh localhost
cd ~/.ssh/ # 若没有该目录,请先执行一次 ssh localhost
ssh-keygen -t rsa # 会有提示,都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys # 加入授权
~
的含义
在
Linux
系统中,
~
代表的是用户的主文件夹,即
“/home/
用户名
”
这个目
录,如你的用户名为
hadoop
,则
~
就代表
“/home/hadoop/”
。 此外,命令
中的
#
后面的文字是注释,只需要输入前面命令即可。
此时再用
ssh localhost
命令,无需输入密码就可以直接登陆了,如下图所示
![](https://img-blog.csdnimg.cn/70a04afac388421e94f2a2aa4859e7f5.png)
安装hadoop前需要配置Java环境
手动安装,推荐采用本方式
Hadoop3.1.3
需要
JDK
版本在
1.8
及以上。需要按照下面步骤来自己手动安装
JDK1.8
。把压缩格式的文件
jdk-8u162-linux-x64.tar.gz
下载到本地电脑,假
设保存在
“/home/linziyu/Downloads/”
目录下。
在
Linux
命令行界面中,执行如下
Shell
命令(注意:当前登录用户名是
hadoop
):
使用FTP上传文件,这里需要注意上传的文件是在哪个位置,也可使用Xshell使用上传文件这里推荐一篇xshell使用的文章
使用xshell连接远程服务器并使用ftp上传文件_湖大李桂桂的博客-CSDN博客_xshellftp
使用之前需要下载lrzsz的安装包
sudo apt-get install lrzsz
在终端输入rz命令选择文件上传
cd /usr/lib
sudo mkdir jvm #创建/usr/lib/jvm 目录用来存放 JDK 文件
sudo tar -zxvf jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm
上面使用了解压缩命令
tar
,如果对
Linux
命令不熟悉,可以参考
附件三
。
JDK 文件解压缩以后,可以执行如下命令到/usr/lib/jvm 目录查看
cd /usr/lib/jvm
ls
cd ~
vim ~/.bashrc
上面命令使用
vim
编辑器(
附件六
)打开了
hadoop
这个用户的环境变量配置
文件,请在这个文件的开头位置,添加如下几行内容
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
![](https://img-blog.csdnimg.cn/e207aaff3cd545c7a512fe8407ad583c.png)
保存
.bashrc
文件并退出
vim
编辑器。然后,继续执行如下命令让
.bashrc
文件
的配置立即生效:
source ~/.bashrc
这时,可以使用如下命令查看是否安装成功
java -version
安装hadoop
安装 Hadoop3.1.3
Hadoop
安装文件,可以到
Hadoop 官网
下载
hadoop-3.1.3.tar.gz
。
我们选择将
Hadoop
安装至
/usr/local/
中
sudo tar -zxf hadoop-3.1.3.tar.gz -C /usr/local
# 解压到/usr/local 中
cd /usr/local/
sudo mv ./hadoop-3.1.3/ ./hadoop # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop # 修改文件权限
Hadoop伪分布式布置
Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取 的是 HDFS 中的文件。 Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修 改 2 个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop 的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。 修改配置文件 core-site.xml (通过 gedit 编辑会比较方 便: gedit./etc/hadoop/coresite.xml),将当中的对应位置内容修改如下
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
同样的,修改配置文件
hdfs-site.xml
![](https://img-blog.csdnimg.cn/11ca8a6232a3485586efd1f7ad6c2cb1.png)
Hadoop
的运行方式是由配置文件决定的(运行
Hadoop
时会读取配置文
件),因此如果需要从伪分布式模式切换回非分布式模式,需要删除
core-
site.xml
中的配置项。 此外,伪分布式虽然只需要配置 fs.defaultFS
和
dfs.replication
就可以运行
(官方教程如此),不过若没有配置
hadoop.tmp.dir
参数,则默认使用的临 时目录为 /tmp/hadoo-hadoop
,而这个目录在重启时有可能被系统清理掉,导致必须重新执行 format
才行。所以我们进行了设置,同时也指定 dfs.namenode.name.dir 和
dfs.datanode.data.dir
,否则在接下来的步骤中可 能会出错。 配置完成后,执行 NameNode
的格式化
cd /usr/local/hadoop
./bin/hdfs namenode -format
成功的话,会看到
“successfully formatted”
的提示,具体返回信息类似如下:
2020-01-08 15:31:31,560 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = hadoop/127.0.1.1
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 3.1.3
*******************************************
如果在这一步时提示
Error: JAVA_HOME is not set and could not be
found.
的错误,则说明之前设置
JAVA_HOME
环境变量那边就没设置好,请
按教程先设置好
JAVA_HOME
变量,否则后面的过程都是进行不下去的。如
果已经按照前面教程在
.bashrc
文件中设置了
JAVA_HOME
,还是出现
Error:
JAVA_HOME is not set and could not be found.
的错误,那么,请到
hadoop
的安装目录修改配置文件
“/usr/local/hadoop/etc/hadoop/hadoop
env.sh”
,在里面找到
“export JAVA_HOME=${JAVA_HOME}”
这行,然后,把
它修改成
JAVA
安装路径的具体地址,比如,
“export
JAVA_HOME=/usr/lib/jvm/default-java”
,然后,再次启动
Hadoop
。
接着开启
NameNode
和
DataNode
守护进程
cd /usr/local/hadoop
./sbin/start-dfs.sh #start-dfs.sh 是个完整的可执行文件,中间没有空格
如果开启成功则完成配置
启动
Hadoop
时提示
Could not resolve hostname
如果启动
Hadoop
时遇到输出非常多
“ssh: Could not resolve hostname xxx”
的
异常情况,如下图所示
![](https://img-blog.csdnimg.cn/55b0689fd65a402cab0305c1c90765fe.png)
这个并不是
ssh
的问题,可通过设置
Hadoop
环境变量来解决。首先按键盘 的 ctrl + c
中断启动,然后在
~/.bashrc
中,增加如下两行内容(设置过程与 JAVA_HOME 变量一样,其中
HADOOP_HOME
为
Hadoop
的安装目录
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
保存后,务必执行
source ~/.bashrc
使变量设置生效,然后再次执
行
./sbin/start-dfs.sh
启动
Hadoop
。 启动完成后,可以通过命令 jps
来判断是否成功启动,若成功启动则会列出如 下进程: “NameNode”
、
”DataNode”
和
“SecondaryNameNode”
(如SecondaryNameNode 没有启动,请运行
sbin/stop-dfs.sh
关闭进程,然后再次尝试启动尝试)如果没有 NameNode
或
DataNode
,那就是配置不成功,请仔细检查之前步骤,或通过查看启动日志排查原因。