Hadoop安装与配置
一.下载并安装VMware虚拟机
1.进入VMware官网http://www.vmware.com/cn/products/workstation.html
2.找到Workstation Player,下载
3.安装VMware Workstation 15 Player
二.安装CentOS
1.打开VMware Workstation 15 Player虚拟机,创建新虚拟机
2.安装映像文件CentOS-7-x86_64-DVD-1804.iso
3.打开虚拟机,选择Install CentOS 7
4.设置语言、时间、网络、桌面等
5.创建用户,等待安装完成 重启
6.登入用户
三.网络配置
1.打开网络管理界面 右上角-有线设置-有线连接新建-ipv4
2.打开终端,输入service network restart重启网络
3.确认DNS可以连通
4.查看防火墙状态
systemctl status firewalld.service
四.用户获得管理权限
1.切换到root用户,打开终端,输入chmod u+w /etc/sudoers将sudoers可读
输入vim /etc/sudoers 打开sudoers文件
2.将91行的root…复制粘贴到92行,并将root改为要设置权限的用户名称,保存
注:普通用户使用管理员权限,代码前需加sudo
五.ssh免密登陆
1.首先生成公私钥 ssh-keygen -t rsa
2.打开用户目录下的.ssh目录 Cd .ssh, 会发现两个文件:id_rsa 和 id_rsa.pub
3.将公钥文件拷贝成authorized_keys
Cp id_rsa.pub authorized_keys
4.最后可以验证一下有没有配置成功
ssh 本机主机名
如果不需要输入密码可直接登录就说明设置成功
然后exit退出即可。
六.JDK的安装
1、首先复制jdk文件(.tar.gz格式)到用户目录下,在此目录下新建java目录。
2、将安装包移动到该目录下解压。
tar zxvf 压缩包名
3、解压后为了方便后期操作,将解压后目录名重命名为jdk(使用mv改名)
4、卸载已经安装好的JDK
① 查询当前安装好的JDK包名
rpm -qa | grep jdk
② 卸载方法
rpm -e 包名 --nodeps(忽略依赖关系)
③ 使用java -version命令验证
④ 此时已经没有java的环境变量了,因为都卸载完了,下一步就是给自己安装好的JDK配置环境变量。
5、配置JDK的环境变量
① 打开并编辑用户目录下的.\bashrc文件
vim ~/.bashrc
② 在正文的后面添加以下内容
export JAVA_HOME=/home/ryan/java/jdk
export PATH=
P
A
T
H
:
PATH:
PATH:JAVA_HOME/bin
③ 保存退出,让该文件立即生效
source ~/.bashrc
现在环境变量配置好了,再输入java -version查看
如果显示版本号与安装版本号相同,则证明安装成功了
七.Hadoop的安装与配置
(一)安装
1.首先将hadoop安装包复制到用户目录下,新建hadoop目录。将安装包移动到该目录下解压。
2.将解压完成后的目录(hadoop-2.6.2)改名为hadoop
3.将hadoop根目录下的bin目录和sbin目录路径加入到PATH中,更改~/.bashrc文件如下
export JAVA_HOME=/home/用户名/java/jdk
export HADOOP_HOME=/home/用户名/hadoop/hadoop
export PATH=
P
A
T
H
:
PATH:
PATH:JAVA_HOME/bin:
H
A
D
O
O
P
H
O
M
E
/
b
i
n
:
HADOOP_HOME/bin:
HADOOPHOME/bin:HADOOP_HOME/sbin
4.改完后,执行source命令令其立即生效
使用hadoop version验证是否成功
(二)配置
1.在$HADOOP_HOME/etc/hadoop/目录下,需要配置以下文件
vim hadoop-env.sh
export JAVA_HOME=/home/ryan/java/jdk
vim yarn-env.sh
export JAVA_HOME=/home/ryan/java/jdk
vim core-site.xml
2.在configuration标签中添加以下变量和值
fs.defaultFS
hdfs://node-1:9000
hadoop.tmp.dir
/home/ryan/hadoop/hadoop/tmp
3.vim hdfs-site.xml(可以不做配置)
(如果不设置该参数,则默认值为3)
dfs.replication
2
(如果不设置该参数,则默认值为
h
a
d
o
o
p
.
t
m
p
.
d
i
r
/
d
f
s
/
n
a
m
e
)
<
n
a
m
e
>
d
f
s
.
n
a
m
e
n
o
d
e
.
n
a
m
e
.
d
i
r
<
/
n
a
m
e
>
<
v
a
l
u
e
>
/
h
o
m
e
/
r
y
a
n
/
h
a
d
o
o
p
/
h
a
d
o
o
p
/
t
m
p
/
d
f
s
/
n
a
m
e
<
/
v
a
l
u
e
>
<
/
p
r
o
p
e
r
t
y
>
<
p
r
o
p
e
r
t
y
>
(
如
果
不
设
置
该
参
数
,
则
默
认
值
为
hadoop.tmp.dir/dfs/name) <name>dfs.namenode.name.dir</name> <value>/home/ryan/hadoop/hadoop/tmp/dfs/name </value> </property> <property>(如果不设置该参数,则默认值为
hadoop.tmp.dir/dfs/name)<name>dfs.namenode.name.dir</name><value>/home/ryan/hadoop/hadoop/tmp/dfs/name</value></property><property>(如果不设置该参数,则默认值为hadoop.tmp.dir/dfs/data)
dfs.datanode.data.dir
/home/ryan/hadoop/hadoop/tmp/dfs/data
4.vim mapred-site.xml
mapreduce.framework.name
yarn
5.vim yarn-site.xml
yarn.resourcemanager.address
rmhostname:8032
八.格式化并启动hadoop
hadoop namenode -format
start-all.sh