1.先安装jdk
2.下载Hadoop(版本:2.7.3,64位,无需在翻译)
3.解压Hadoop ,配置环境变量
操作如下:
将下载来的Hadoop-2.7.3.tar.gz放进/usr目录中
#tar -zxvc hadoop-2.7.3.tar.gz
#mv hadoop-2.7.3 hadoop
#cd /etc/profild.d
#vi hadoop.sh
编辑
HADOOP_HOME=/usr/hadoop
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_HOME PATH
保存退出
#source hadoop.sh
#hadoop version
此时有版本打印,则配置成功
4.配置Hadoop的配置文件
进入Hadoop的配置文件目录
# cd/usr/hadoop/etc/hadoop
1.配置core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
2.配置hdfs-site.xml(由于伪分布式只有一个节点,所以副本数配置1)
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3.配置mapred-site.xml(由于没有这个文件 不过我们可以找到mapred-site.xml.template 复制一份,改个名字即可)
#cp mapred-site.xml.template mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
4.配置yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
只配置好了Hadoop还不行,还要配置ssh免密钥登录
因为NameNode要远程登录到DataNode上进行控制
即使是伪分布式,要使自己登录自己的机器
1. 安装ssh
# yum -y install openssh-server openssh-clients
2.生成公钥和私钥
#ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa (P大写)
进入目录 # cd ~/.ssh
将公钥导入秘钥库 其实就是个复制文件
# cp id_rsa.pub authorized_keys
测试
#ssh localhost 如果不用再输入密码了 那就代表成功
启动hadoop
1.nameNode格式化
# hadoop namenode-format
2.启动hadoop进程
#start-all.sh
3.查看进程
# jps
1412 NameNode
1910 NodeManager
1499 DataNode
1676 SecondaryNameNode
1821 ResourceManager
(网页地址端口号:50070)
有以下5个进程就OK了