Hadoop2.8.1伪分布式搭建

最新推荐文章于 2024-07-26 18:24:46 发布

lantazy

最新推荐文章于 2024-07-26 18:24:46 发布

阅读量1.7k

点赞数 1

文章标签： hadoop 分布式 hdfs

本文链接：https://blog.csdn.net/lantazy/article/details/78353245

版权

准备工作

CentOS-6.5

hadoop官网下载(http://hadoop.apache.org/releases.html)Hadoop2.8.1的安装包。选择binary。

安装JDK,JDK1.7+，并配置好环境变量

上面两步做完之后

1.创建hadoop用户

#useradd -d /home/hadoop -m hadoop

并设置hadoop用户密码

#passwd hadoop

2.添加sudo权限(可选)

#vi /ect/suders

最后一行添加

hadoop ALL=(ALL) ALL

3.安装 openssh-server

#yum install -y openssh-server

4.切换到hadoop用户，并进入用户主目录

#su hadoop

# cd ~

5.生成ssh公钥和私钥

#ssh-keygen -t rsa

然后一直回车到底

#cd ~/.ssh

将生成的公钥拷贝到当前目录的authorized_keys文件中，这样可以免密码登陆

#cat id_rsa.pub >> authorized_keys

使用 ssh hadoop用户登陆本机

#ssh hadoop@localhost

可以免密码登陆到本机

# exit

6.将hadoop安装包拷贝到/usr/program/文件夹下(这个文件夹你自己按照自己的要求更改)

7.解压到/usr/program/文件夹下,并重命名hadoop-2.8.1(重命名可选)

#tar -zxvf hadoop-2.8.1.tar.gz

8.如果hadoop文件夹的的所有者不是 hadoop那就更改文件夹的权限

#chown -R hadoop:hadoop ./hadoop

#ls -la

9.添加hadoop的环境变量

#vi ~/.bashrc

export HADOOP_HOME=/usr/program/hadoop
export PATH=$PATH:$HADOOP_HOME/sbin
export PATH=$PATH:$HADOOP_HOME/bin

#查看hadoop环境变量是否添加成功

#echo $HADOOP_HOME

hadoop -version

10.修改hadoop的配置文件 cd ${HADOOP_HOME}/etc/hadoop/

10.1 修改 hadoop-env.sh文件

将${JAVA_HOME}替换成JDK的安装路径，保存

10.2修改core-site.xml文件

添加：

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

10.3修改hdfs-site.xml

添加：

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/program/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/program/hadoop/data/datenode</value>
</property>
</configuration>

dfs.replication参数表示hdfs中文件的副本数，这个值默认是3

dfs.namenode.name.dir参数表示namenode的数据存放文件夹(先创建此文件夹最好)

dfs.datanode.data.dir参数表示datanode的数据存放文件夹(先创建此文件夹最好)

10.4拷贝文件mapred-site.xml.template并命名为mapred-site.xml，添加以下配置

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

10.5修改yarn-site.xml,添加以下配置

<configuration>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

所有配置修改完成后，格式化namenode

#hdfs namenode -formate

10.6启动NameNode 和 dataNode

#start-dfs.sh

此命令启动了dn,nn,sn三个进程

使用jps命令查看

使用浏览器浏览http://NameNodeIP:50070可查看hadoop的信息

使用浏览器浏览http://DataNodeIP:50075可查看datanode的信息

这里因为是伪分布式，所以NameNodeIP == NameNodeIP

使用hdfs dfs 或者 hadoop fs命令可以操作文件系统

完