1.如果你尚未配置过任何hadoop环境的话,本人建议你先配置单机模式。网上说单机模式用不着,但是我觉得对于初学者来说还是要先配置一把,熟悉一下hadoop的机制比较好。因为伪分布式配置在单机配置模式下完成后,只需要在几个配置文件中添加几个配置就行。
2.首先还是先安装java环境,hadoop环境。不会的可以参照我上篇单机版hadoop的配置。在这里我就不多说了。能玩hadoop相信都是有一定的计算机经验了。
3.配置完成以上所说的环境之后,接下来在/usr/local/hadoop/etc/hadoop下配置如下几个文件core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml在后面添加如下信息:
core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporarydirectories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.154.128:9000</value> <!-- 这里是你虚拟机的ip地址,端口为9000,这是RPC协议专用的-->
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
mapred-site.xml
(此文件可能没有,此时需要新建一个)(还有就是这里的这个文件可能不同的版本配置信息写的不一样。因为在hadoop 版本在0.23.0以后就开始大面积重构了,原框架的JobTracker和TaskTracker不见了,取而代之的是ResourceManager AppliactionMaster NodeManager三个部分)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
4.配置完成后,可以简单的调试一下Hadoop里面的主流框架hdfs。
首先对HDFS进行格式化,命令如下:hadoop@ruizg:/usr/local/hadoop/bin$ hdfs namenode -format
然后启动NameNode和DataNode,命令如下:hadoop@ruizg:/usr/local/hadoop$ sbin/start-dfs.sh
hadoop@ruizg:/usr/local/hadoop$ sbin/start-yarn.sh
这里需要输入id_rsa 就是私钥,你当初安装ssh生成的证书内容。
5.启动进程之后用jps命令查看进程情况,出现如下6个进程名字说明启动成功
8431 NodeManager
8684 ResourceManager
7821 NameNode
7281 DataNode
8915 Jps
8341 SecondaryNameNode
或者是这样:
8431 JobTracker
8684 TaskTracker
7821 NameNode
7281 DataNode
8915 Jps
8341 SecondaryNameNode
(说明:这里的由于版本不同可能出现不同的信息(原由就是第三步第三个文件配置后说明的东西),不过出现这两种中任何一种就都代表成功了,不用怕)
这里整个伪分布式就都完成了!!!!!!!!!开不开心!!!
2.首先还是先安装java环境,hadoop环境。不会的可以参照我上篇单机版hadoop的配置。在这里我就不多说了。能玩hadoop相信都是有一定的计算机经验了。
3.配置完成以上所说的环境之后,接下来在/usr/local/hadoop/etc/hadoop下配置如下几个文件core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml在后面添加如下信息:
core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporarydirectories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.154.128:9000</value> <!-- 这里是你虚拟机的ip地址,端口为9000,这是RPC协议专用的-->
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
mapred-site.xml
(此文件可能没有,此时需要新建一个)(还有就是这里的这个文件可能不同的版本配置信息写的不一样。因为在hadoop 版本在0.23.0以后就开始大面积重构了,原框架的JobTracker和TaskTracker不见了,取而代之的是ResourceManager AppliactionMaster NodeManager三个部分)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
4.配置完成后,可以简单的调试一下Hadoop里面的主流框架hdfs。
首先对HDFS进行格式化,命令如下:hadoop@ruizg:/usr/local/hadoop/bin$ hdfs namenode -format
然后启动NameNode和DataNode,命令如下:hadoop@ruizg:/usr/local/hadoop$ sbin/start-dfs.sh
hadoop@ruizg:/usr/local/hadoop$ sbin/start-yarn.sh
这里需要输入id_rsa 就是私钥,你当初安装ssh生成的证书内容。
5.启动进程之后用jps命令查看进程情况,出现如下6个进程名字说明启动成功
8431 NodeManager
8684 ResourceManager
7821 NameNode
7281 DataNode
8915 Jps
8341 SecondaryNameNode
或者是这样:
8431 JobTracker
8684 TaskTracker
7821 NameNode
7281 DataNode
8915 Jps
8341 SecondaryNameNode
(说明:这里的由于版本不同可能出现不同的信息(原由就是第三步第三个文件配置后说明的东西),不过出现这两种中任何一种就都代表成功了,不用怕)
这里整个伪分布式就都完成了!!!!!!!!!开不开心!!!