Hadoop单机模式和伪分布模式的搭建
Hadoop集群支持3种运行模式,即单机模式、伪分布模式和全分布模式。本文主要讲解单机模式和伪分布模式的搭建,在接下来的文章中将继续讲解全分布模式的搭建。(文章中所使用到的配置文件下载地址)
1、Java安装(JDK)
Hadoop的运行需要JDK的支持,所以首先到官网下载对应版本的jdk,然后解压压缩包。把解压的文件放入opt文件夹下(可以根据个人习惯放置)。然后,配置在/etc/profile文件末尾添加JAVA的HOME目录(JAVA_HOME为bin文件所在的目录)。
/etc/profile文件末尾添加:
export JAVA_HOME=/opt/jdk-8u25-linux-i586/jdk1.8.0_25
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
测试:
在终端输入Java,有与JDK相对应的信息输出,说明JDK已经配置好了。
2、Hadoop的安装
与java(JDK)的按照类似,先下载Hadoop稳定版,解压备用。把解压文件复制到opt文件下下,接着在/etc/profile文件的末尾添加Hadoop的Home路径。应为Hadoop的运行需要JDK的支持,接下来修改Hadoop conf目录下的hadoop-env.sh文件中的java路径,修改为第一步配置的JAVA_HOME路径(需要绝对路径,直接写JAVA_HOME不行)。
/etc/profile文件末尾添加:
export HADOOP_HOME=/opt/hadoop-1.2.1/hadoop-1.2.1
export PATH=$HADOOP_HOME/bin:$PATH
Hadoop conf/hadoop-env.sh文件中添加:
export JAVA_HOME=/opt/jdk-8u25-linux-i586/jdk1.8.0_25
测试:
在终端中输入hadoop,如果出现与hadoop相关的信息,说明已经安装成功。
3、Hadoop单机模式配置
单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,默认配置选择的是最小配置。默认模式下Hadoop的三个XML文件(core-site.xml,mapred-site.xml, hdfs-site.xml)都为空,注:不同版本有所区别。Hadoop会安全的运行在本地。单机模式不适用HDFS,也不加载任何Hadoop的守护进程。该模式主要用来调试MapReduce程序的应用逻辑。4、Hadoop伪分布是模式配置
Hadoop可在单节点上以伪分布模式运行,用不同的Java进程模拟分布式运行中各类节点(NameNode、DataNode、JobTracker、TaskTracker、Secondary NameNode)。
(1)配置Hadoop
在Hadoop的三个配置文件中添对应信息。
core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
</property>
</configuration>
hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
mapred-sit.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
(2)设置免密钥SSH
生成密钥对,执行以下命令:(需要openssh软件)
$ssh-keygen -t rsa
接着一直按“enter”键,即按照默认的选项生产密钥对保存在.ssh/id_ras文件中。进入.ssh目录,执行如下命令:
$cp id_rsa.pub authorized_keys
接着执行$ssh localhost,实现使用SSH链接并且不需要密码。
(3)运行Hadoop
格式化分布式文件系统,执行如下命令
$hadoop namenode -format
到这里Hadoop伪分布模式就已经搭建好了。启动Hadoop守护进程,执行如下命令
$start-all.sh
成功执行后将在本地上启动NameNode、DataNode、JobTracker、TaskTracker和Secondary NameNode 5个新的Java进程。可以使用jps命令查看这些进程的信息:(注:有的时候只有这5个中的几个,我也不知道是什么原因,)
$jps
停止Hadoop进程,使用如下命令:
$stop-all.sh
到这里Hadoop的单机模式和伪分布模式的搭建就完成了。
欢迎大家留言!
转载说明出处:http://blog.csdn.net/lvsaixia/article/details/41388463