CentOS6.5下hadoop配置

环境准备

1.1   操作系统:CentOS 6.5

1.2    集群主机: vi /etc/hosts

 HostName          IP           Purpose

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

10.18.51.52     master.hadoop

10.18.51.53     slave1.hadoop

10.18.51.54     slave2.hadoop

10.18.51.55     slave3.hadoop

10.18.51.56     slave4.hadoop

10.18.51.57     slave5.hadoop

10.18.51.58     slave6.hadoop

10.18.51.59     slave7.hadoop

10.18.51.60     slave8.hadoop

10.18.51.61     slave9.hadoop

10.18.51.51     slave10.hadoop

10.18.51.50     slave11.hadoop

10.18.51.49     slave12.hadoop

按照上述表格,设置各个主机的主机名称和IP地址(必须是静态的):

(1)       主机名称修改:

可用hostname命令或直接修改文件/etc/sysconfig/network文件:hostname=…

(2)       IP地址修改:

可用ifconfig命令或直接修改文件/etc/sysconfig/network-scripts/ifcfg-eth0(与使用网卡对应文件),在其中主要配置:IP/GETWAY/NETMASK/DNS等。

       Linux开机是网络默认是断开的,

       设置网络自动开机自动连接:

       右击网络链接图标-》 edit connections... -》 选中“etho” 选择edit 出现下面的对话    框  把 connect automatically 选上即可。 
       方法2 修改配置文件
       # vi /etc/sysconfig/network-scripts/ifcfg-eth0 
       将ONBOOT=no 改成 yes 就表示开机后默认链接etho 
       # /etc/init.d/network restart 

编辑/etc/hosts文件,添加如下内容:(每台机器)

10.18.51.52     master.hadoop

10.18.51.53     slave1.hadoop

10.18.51.54     slave2.hadoop

10.18.51.55     slave3.hadoop

10.18.51.56     slave4.hadoop

10.18.51.57     slave5.hadoop

10.18.51.58     slave6.hadoop

10.18.51.59     slave7.hadoop

10.18.51.60     slave8.hadoop

10.18.51.61     slave9.hadoop

10.18.51.51     slave10.hadoop

10.18.51.50     slave11.hadoop

10.18.51.49     slave12.hadoop

编辑/etc/profile文件(或Hadoop用户的 .bash_profile),在其文件末尾添加JDK相关环境变量:

           export     JAVA_HOME=/usr/java/jdk1.7.0_67

           export     CLASSPATH=.:$JAVA_HOME/lib:$ JAVA_HOME/jre/lib:$CLASSPATH

           (直接指定*.jar文件)

    export      JAVA_OPTS=”-Xms1024m-Xmx2048m”

    export       PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

记住:在REDHAT中,$CLASSPATH  $PATH 一定要放在后面。

export      JAVA_HOME=/usr/java/jdk1.7.0_67

export      CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH

export      JAVA_OPTS=”-Xms1024m-Xmx2048m”

export       PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

 有的网站:CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

然后执行: source /etc/profile ,使配置立即生效。

运行 java -version 时候可能会提示权限不够,只要修改相应文件,添加可执行权限即可。

vi /etc/profile 也可以一次性配置先(建议初学者先不一次性配置)

export  JAVA_HOME=/usr/java/jdk1.7.0_67

export  CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/jre/lib:$CLASSPATH

export  JAVA_OPTS="-Xms1024m-Xmx2048m"

           export  PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

                   export HADOOP_HOME=/usr/hadoop

         export HADOOP_COMMON_HOME=$HADOOP_HOME

         export HADOOP_HDFS_HOME=$HADOOP_HOME

         export HADOOP_MAPRED_HOME=$HADOOP_HOME

         export HADOOP_YARN_HOME=$HADOOP_HOME

         export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

         export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/lib

         export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

         export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

         export PATH=$PATH:/usr/apache-ant/bin

         export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native

         推出之后,执行:source /etc/profile

关闭防火墙,SELINUX关不关闭应该无所谓

查看SELinux状态:

1) /usr/sbin/sestatus -v      ##如果SELinux status参数为enabled即为开启状态

SELinux status:               enabled

2) getenforce                ##也可以用这个命令检查

关闭SELinux:

1) 临时关闭(不用重启机器):

setenforce 0               ##设置SELinux 成为permissive模式

                              ##setenforce 1 设置SELinux 成为enforcing模式

2) 修改配置文件需要重启机器:

修改/etc/selinux/config 文件

将SELINUX=enforcing改为SELINUX=disabled

重启机器即可

service iptables status可以查看到iptables服务的当前状态

1) 重启后生效 
开启: chkconfig iptables on 
关闭: chkconfig iptables off 或者 /sbin/chkconfig --level 2345 iptables off
2) 即时生效,重启后失效
service 方式
开启: service iptables start 
关闭: service iptables stop
iptables方式
查看防火墙状态:
/etc/init.d/iptables status
暂时关闭防火墙:
/etc/init.d/iptables stop
重启iptables:
/etc/init.d/iptables restart

配置主机名(在系统安装的时候就已经指定了 )和Ip,并且设置自启动,服务器两个网卡,目前选择第一个网卡插口

设置各个主机的主机名称和IP地址(必须是静态的):

(3)       主机名称修改:

可用hostname命令或直接修改文件/etc/sysconfig/network文件:hostname=…

(4)       IP地址修改:

可用ifconfig命令或直接修改文件/etc/sysconfig/network-scripts/ifcfg-eth0(与使用网卡对应文件),在其中主要配置:IP/GETWAY/NETMASK/DNS等。

       Linux开机是网络默认是断开的,

    设置网络自动开机自动连接:

       右击网络链接图标-》 edit connections... -》 选中“etho” 选择edit 出现下面的对话    框  把 connect automatically 选上即可。 

       或者:# vi /etc/sysconfig/network-scripts/ifcfg-eth0 
       将ONBOOT=no 改成 yes 就表示开机后默认链接etho 
       # /etc/init.d/network restart 

修改主机名:

           /etc/sysconfig/network中修改。

Hadoop安装配置(每台机器)

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html;很好很详细的网址

下载Hadoop安装包:hadoop安装包以两种形式发布,二进制形式和源码形式。这里我们下载二进制发布包。(注意:如何操作系统时64位,则需下载源码包进行编译,重新生成本地库文件,因为默认的二进制包是在32位环境下编译的)。

2.2 将Hadoop包解压到制定目录,如:/usr/hadoop

         cd /usr/hadoop

tar –zxvf hadoop2.3.0.tar.gz

2.3 配置hadoop环境变量 在root用户下:/etc/profile里面添加即可,添加内容如下:(上面说过,可以一次性都配置完)

         # hadoop

root下,在/etc/profile中添加:不用上面的,用下面的:

export HADOOP_HOME=/usr/hadoop

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_YARN_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_CONF_DIR=$HADOOP_CONF_DIR

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native (不要黄的)

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

2.4 编辑<HADOOP_HOME>/etc/hadoop/hadoop-env.sh文件与yarn-env.sh文件,添加JAVA_HOME变量    下面是配置文件详解的网址http://yq1518602434.blog.163.com/blog/static/202937084201322331913546/

export JAVA_HOME=/usr/java/jdk1.7.0_67/

2.5 编辑<HADOOP_HOME>/etc/hadoop/core-site.xml文件,内容如下:

         <property>

                   <name>hadoop.tmp.dir</name>

                   <value>file:/usr/hadoop/tmp</value>   #tmp 需提前创建

         </property>

                   <property>

                   <name>fs.defaultFS</name>

                   <value>hdfs://master.hadoop:9000</value>  

         修改成:试试

         <name>fs.default.name</name>

         <value>hdfs://localhost:9000</value>

                 </property>

         <property>                                                                        #可选

                   <name>io.file.buffer.size</name>

                   <value>131072</value>  

         </property>

2.6编辑<HADOOP_HOME>/etc/hadoop/hdfs-site.xml文件,内容如下:

                   vi hdfs-site.xml

         <property>

                   <name>dfs.replication</name>      #enable

                   <value>3</value> 

         </property>

<property>

                   <name>dfs.namenode.name.dir</name>     #enable

                   <value>file:/usr/hadoop/dfs/name</value>   # created

         </property>

<property>

                   <name> dfs.datanode.data.dir </name>        #enable

                   <value> file:/usr/hadoop/dfs/data </value>     # created

         </property>

<property>

                   <name>dfs.webhdfs.enabled</name>

                   <value>true</value> 

         </property>

<property>

                   <name>dfs.permissions</name>

                   <value>false</value> 

         </property>

2.7编辑<HADOOP_HOME>/etc/hadoop/yarn-site.xml文件,内容如下:

         为何要配置 yarn:           http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

         <property>

                   <name>yarn.nodemanager.aux-services</name>      

                   <value>mapreduce.shuffle</value> 或者: <value>mapreduce_shuffle</value>

         </property>

<property>

                   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>      

                   <value>org.apache.hadoop.mapred.ShuffleHandler</value> 

         </property>

         <property>

                   <name>yarn.resourcemanager.hostname</name>      

                   <value>hadoop.main</value> 

         </property>

         <property>

                   <name> yarn.resourcemanager.address</name>      

                   <value> hadoop.main:8032</value> 

         </property>

         <property>

                   <name> yarn.resourcemanager.scheduler.address</name>      

                   <value> hadoop.main:8030</value> 

         </property>

<property>

                   <name> yarn.resourcemanager.resource-tracker.address</name>      

                   <value> hadoop.main:8031</value> 

         </property>

         <property>

                   <name> yarn.resourcemanager.admin.address</name>      

                   <value> hadoop.main:8033</value> 

         </property>

<property>

                   <name> yarn.resourcemanager.webapp.address</name>      

                   <value> hadoop.main:8088</value> 

         </property>

 

2.8编辑<HADOOP_HOME>/etc/hadoop/mapred-site.xml文件,内容如下:

         <property>

                   <name>mapreduce.framework.name</name>       #Enable

                   <value>yarn</value> 

         </property>

         <property>

                   以下不要配置的:

                   <name>mapreduce.jobhistory.address</name>      

                   <value>hadoop.main:10020</value> 

         </property>

         <property>

                   <name> mapreduce.jobhistory.webapp.address </name>      

                   <value> hadoop.main:19888</value> 

         </property>

2.9 编辑<HADOOP_HOME>/etc/hadoop/slaves与masters文件

         masters文件:(每个Slave机器上必须有)

配置masters和slaves文件来设置主从结点,注意最好使用主机名,并且保证机器之间通过主机名可以互相访问,每个主机名一行。

master.hadoop       在master文件中

slave1.hadoop         以下都在slaves文件中:

slave2.hadoop

slave3.hadoop

slave4.hadoop

slave5.hadoop

slave6.hadoop

slave7.hadoop

slave8.hadoop

slave9.hadoop

slave10.hadoop

slave11.hadoop

slave12.hadoop

2.10 上述配置任务完成之后,首先格式化分布式文件系统:

         命令:hdfs namenode –format (普通用户进行操作)

用 start-all.sh  启动集群。

查看集群状态:

./bin/hdfs dfsadmin –report 

5. 查看文件块组成:   

./bin/hdfsfsck / -files -blocks 

6. 查看HDFS:    ?? 

http://16.187.94.161:50070 

7. 查看RM:    ?? 

http:// 16.187.94.161:8088 

2.13 运行WordCount程序

在Master主机上创建三个文本文件:file1.txt,file2.txt,file3.txt, 并利用以下命令在分布式文件系统上创建文件夹,且将本地文件file*.txt上传到hdfs。

hdfs dfs    -ls  /

hdfs dfs –mkdir /in                     # 在hdfs上创建文件夹

hdfs dfs –put file*.txt /in     #将本地文件上传到hdfs

 

注意:hadoop 默认运行在安全模式,可以使用命令:hadoop dfsadmin –safemode leave退出安全模式。

 

将当前目录切换到/usr/hadoop:执行下面命令允许hadoop自带wordcount程序。

Hadoop jar  share/hadoop/mapreduce/hadoop-mapreduce-example.jar wordcount /in /out

 

注意:/out目录不能提前创建好,有程序自己创建。

 

转载于:https://www.cnblogs.com/sunallen/p/5456312.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值