Hadoop安装配置-CSDN博客

本文链接：https://blog.csdn.net/klxk3/article/details/53482250

  配置安装hadoop 

 
 参考文章 

 
 http://www.open-open.com/lib/view/open1435761287778.html 

  其中有些问题，这是修改后自己的操作流程，亲测无坑。 

  如果安装过程中遇到问题，可以参考这篇文章： 

  http://blog.csdn.net/klxk3/article/details/53506702 

  总体思路，准备主从服务器，配置主服务器可以无密码SSH登录从服务器，解压安装JDK，解压安装Hadoop，配置hdfs、mapreduce等主从关系。 

  1、环境，3台CentOS7，64位，Hadoop2.7需要64位Linux，CentOS7 选择快速安装即可 

  Master 192.168.29.121 

  Slave1 192.168.29.122 

  Slave2 192.168.29.123 

  本机（真实机） 192.168.29.1 

  仅主机模式 

  因为以后要搭配windows中eclipse开发环境，所以这样设置。大家可以按自己的想法修改。 

  配置主机名、修改hosts 

  vim /etc/hosts 

  192.168.29.121 node1 

  192.168.29.122 node2 

  192.168.29.123 node3 

  重启生效 

  2、SSH免密码登录，因为Hadoop需要通过SSH登录到各个节点进行操作SSH 无密 码原理简介 : 

  首先在 hadoop1 上生成一个密 钥对，包括一个公钥和一个私钥，并将公钥复制到所有的 slave(hadoop2-hadoop4) 上。 

  然后当 master 通 过 SSH 连接 slave 时， slave 就会生成一个随机数并用 master 的公 钥对随机数进行加密，并发送给 master 。 

  最后 master 收到加密数之后再用私 钥解密，并将解密数回传给 slave ， slave 确 认解密数无误之后就允许 master 不 输入密码进行连接了 

  0 ，具体步 骤（在root用户和hadoop用户登陆情况下执行） 

  1 、 执行命令 ssh-keygen -t rsa 之后一路回 车，查看刚生成的无密码钥对： cd .ssh 后 执行 ll 

  2 、把 id_rsa.pub 追加到授权的 key 里面去。 执行命令 cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys 

  3 、修改权限： 执行 chmod 600 ~/.ssh/authorized_keys 

  4 、确保 cat /etc/ssh/sshd_config 中存在如下内容 

  RSAAuthentication yes 

  PubkeyAuthentication yes 

  AuthorizedKeysFile .ssh/authorized_keys 

  如需修改， 则在修改后执行重启 SSH 服 务命令使其生效 :service sshd restart 

  5 、将公 钥复制到所有的 slave 机器上 :scp ~/.ssh/id_rsa.pub 192.168.1.203 ： ~/ 然后 输入 yes ，最后 输入 slave 机器的密 码 

  6 、在 slave 机器上 创建 .ssh 文件夹 :mkdir ~/.ssh 然后 执行 chmod 700 ~/.ssh （若文件夹以存在 则不需要创建） 

  7 、追加到授权文件 authorized_keys 执行命令 :cat ~/id_rsa.pub >> ~/.ssh/authorized_keys 然后 执行 chmod 600 ~/.ssh/authorized_keys 

  8 、重复第 4 步 

  9 、 验证命令 : 在 master 机器上 执行 ssh 192.168.1.203 发现主机名由 hadoop1 变成 hadoop3 即成功，最后 删除 id_rsa.pub 文件 :rm -r id_rsa.pub 

  3、安装JDK，Hadoop2.7需要JDK7，由于我的CentOS是最小化安装，所以没有OpenJDK，直接解压下载的JDK并配置变量即可 每个机器都要配置 

  (1)下载“jdk-7u79-linux-x64.gz”，放到/home/java目录下 

  (2)解压，输入命令，tar -zxvf jdk-7u79-linux-x64.gz 

  (3)编辑/etc/profile 

  export JAVA_HOME=/home/java/jdk1.7.0_79 

  export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar 

  export HADOOP_HOME=/home/hadoop/hadoop-2.7.1/ 

  export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 

  (4)使配置生效，输入命令，source /etc/profile 

  (5)输入命令，java -version，完成 

  4、安装Hadoop2.7，只在Master服务器解压，再复制到Slave服务器 

  (1)下载“hadoop-2.7.0.tar.gz”，放到/home/hadoop目录下 

  (2)解压，输入命令，tar -xzvf hadoop-2.7.0.tar.gz 

  (3)在/home/hadoop目录下创建数据存放的文件夹，tmp、hdfs、hdfs/data、hdfs/name 

  5、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的core-site.xml 

  <configuration> 

  <property> 

  <name>fs.defaultFS</name> 

  <value>hdfs://192.168.29.121:9000</value> 

  </property> 

  <property> 

  <name>hadoop.tmp.dir</name> 

  <value>file:/home/hadoop/tmp</value> 

  </property> 

  <property> 

  <name>io.file.buffer.size</name> 

  <value>131702</value> 

  </property> 

  </configuration> 

  6、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的hdfs-site.xml 

  <configuration> 

  <property> 

  <name>dfs.namenode.name.dir</name> 

  <value>file:/home/hadoop/dfs/name</value> 

  </property> 

  <property> 

  <name>dfs.datanode.data.dir</name> 

  <value>file:/home/hadoop/dfs/data</value> 

  </property> 

  <property> 

  <name>dfs.replication</name> 

  <value>2</value> 

  </property> 

  <property> 

  <name>dfs.namenode.secondary.http-address</name> 

  <value>192.168.29.121:9001</value> 

  </property> 

  <property> 

  <name>dfs.webhdfs.enabled</name> 

  <value>true</value> 

  </property> 

  </configuration> 

  7、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的mapred-site.xml 

  <configuration> 

  <property> 

  <name>mapreduce.framework.name</name> 

  <value>yarn</value> 

  </property> 

  <property> 

  <name>mapreduce.jobhistory.address</name> 

  <value>192.168.29.121:10020</value> 

  </property> 

  <property> 

  <name>mapreduce.jobhistory.webapp.address</name> 

  <value>192.168.29.121:19888</value> 

  </property> 

  </configuration> 

  8、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的 yarn-site.xml 

  <configuration> 

  <property> 

  <name>yarn.nodemanager.aux-services</name> 

  <value>mapreduce_shuffle</value> 

  </property> 

  <property> 

  <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name> 

  <value>org.apache.hadoop.mapred.ShuffleHandler</value> 

  </property> 

  <property> 

  <name>yarn.resourcemanager.address</name> 

  <value>192.168.29.121:8032</value> 

  </property> 

  <property> 

  <name>yarn.resourcemanager.scheduler.address</name> 

  <value>192.168.29.121:8030</value> 

  </property> 

  <property> 

  <name>yarn.resourcemanager.resource-tracker.address</name> 

  <value>192.168.29.121:8031</value> 

  </property> 

  <property> 

  <name>yarn.resourcemanager.admin.address</name> 

  <value>192.168.29.121:8033</value> 

  </property> 

  <property> 

  <name>yarn.resourcemanager.webapp.address</name> 

  <value>192.168.29.121:8088</value> 

  </property> 

  <property> 

  <name>yarn.nodemanager.resource.memory-mb</name> 

  <value>768</value> 

  </property> 

  </configuration> 

  9、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下hadoop-env.sh、yarn-env.sh的JAVA_HOME，不设置的话，启动不了， 

  export JAVA_HOME=/home/java/jdk1.7.0_79 

  10、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的slaves，删除默认的localhost，增加2个从节点， 

  192.168.29.122 

  192.168.29.123 

  11、将配置好的Hadoop复制到各个节点对应位置上，通过scp传送， 

  scp -r /home/hadoop 192.168.29.122:/home/ 

  scp -r /home/hadoop 192.168.29.123:/home/ 

  #scp -r /home/java/ 192.168.29.122:/home/ 

  #scp -r /home/java/ 192.168.29.123:/home/ 

  12、在Master服务器启动hadoop，从节点会自动启动，进入/home/hadoop/hadoop-2.7.0目录 

  (1)初始化，输入命令，bin/hdfs namenode -format 

  (2)全部启动sbin/start-all.sh，也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh 

  (3)停止的话，输入命令，sbin/stop-all.sh 

  (4)输入命令，jps，可以看到相关信息 

  13、Web访问，要先开放端口或者直接关闭防火墙 

  (1)输入命令，systemctl stop firewalld.service 

  (2)浏览器打开http://192.168.29.121:8088/ 

  (3)浏览器打开http://192.168.29.121:50070/ 

Hadoop安装配置