关闭

Hadoop之——CentOS + hadoop2.5.2分布式环境配置

标签: hadoopcentosvmware集群
2268人阅读 评论(0) 收藏 举报
分类:

转载请注明出处:http://blog.csdn.net/l1028386804/article/details/51536051

一、基础环境准备

系统:(VMWare) CentOS-6.5-x86_64-bin-DVD1.iso
hadoop版本:hadoop-2.5.2
jdk版本:jdk-7u72-linux-x64.tar.gz

1.集群机器

三台测试集群,一个master(liuyazhuang-01),两个slave(liuyazhuang-02,liuyazhuang-03)

/etc/hosts
192.168.1.112 liuyazhuang-01
192.168.1.113 liuyazhuang-02
192.168.1.114 liuyazhuang-03
注意不要保留127.0.0.1 localhost

配置同步到其他两台机器

scp /etc/hosts root@192.168.1.113:/etc/hosts
scp /etc/hosts root@192.168.1.114:/etc/hosts

2. 设置linux上ssh是用户可以自动登录

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

3.java环境配置

1)JAVA_HOME为/usr/local/java/jdk1.7.0_72
2)/etc/profile文件追加以下内容

JAVA_HOME=/usr/local/jdk1.7.0_72
CLASS_PATH=$JAVA_HOME/lib
PATH=$JAVA_HOME/bin:$PATH
export PATH JAVA_HOME CLASS_PATH

二、下载解压hadoop-2.5.2.tar.gz

hadoop@liuyazhuang-01:~/data$ pwd
/home/hadoop/data
hadoop@liuyazhuang-01:~/data$ wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.5.2/hadoop-2.5.2.tar.gz
hadoop@liuyazhuang-01:~/data$tar zxvf hadoop-2.5.2.tar.gz

三、配置环境变量

hadoop@liuyazhuang-01:~/data$gedit /etc/profile
追加内容如下:

#HADOOP VARIABLES START
export HADOOP_INSTALL=/home/hadoop/data/hadoop-2.5.2
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP VARIABLES END
使配置生效
hadoop@liuyazhuang-01:~/data$source /etc/profile
同时需要修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/java/jdk1.7.0_72

四、修改$HADOOP_HOME/etc/hadoop/core-site.xml

添加如下内容:

<property>
	<name>fs.default.name</name>
	<value>hdfs://liuyazhuang-01:9000</value>
</property>
<property>
	<name>hadoop.tmp.dir</name>
	<value>/home/hadoop/data/hadoop-2.5.2/hadoop-${user.name}</value>
</property>

五、修改$HADOOP_HOME/etc/hadoop/yarn-site.xml

添加如下内容:

<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>
<property>
	<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
	<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>liuyazhuang-01</value>
</property>
更多yarn-site.xml参数配置可参考:
http://hadoop.apache.org/docs/r2.5.2/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

六、修改$HADOOP_HOME/etc/hadoop/mapred-site.xml

默认没有mapred-site.xml文件,copy mapred-site.xml.template 一份为 mapred-site.xml即可

#cp etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml
添加如下内容:
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
	<final>true</final>
</property>

七、配置hdfs-site.xml (这里可以不配,采用默认参数)

/usr/local/hadoop/etc/hadoop/hdfs-site.xml
用来配置集群中每台主机都可用,指定主机上作为namenode和datanode的目录。

<property>
	<name>dfs.name.dir</name>
	<value>/home/hadoop/data/hadoop-2.5.2/name1,/home/hadoop/data/hadoop-2.5.2/name2</value>
</property>
<property>
	<name>dfs.data.dir</name>
	<value>/home/hadoop/data/hadoop-2.5.2/data1,/home/hadoop/data/hadoop-2.5.2/data2</value>
</property>
<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>

八、配置salves

告诉hadoop 其他从节点,这样,只要主节点启动,他会自动启动其他机器上的nameNode dataNode 等等
编辑 $HADOOP_HOME/etc/hadoop/slaves
内容如下:

liuyazhuang-02
liuyazhuang-03

九、同步同步该文件夹 到其他各个从主机上即可

因为我们使用ssh免登陆 不需要使用密码

hadoop@liuyazhuang-01:~/data/hadoop-2.5.2$scp -r /home/hadoop/data/hadoop-2.5.2 hadoop@192.168.1.113:/home/hadoop/data/hadoop-2.5.2
hadoop@liuyazhuang-01:~/data/hadoop-2.5.2$scp -r /home/hadoop/data/hadoop-2.5.2 hadoop@192.168.1.114:/home/hadoop/data/hadoop-2.5.2

十、格式化hdfs

hadoop@liuyazhuang-01:~/data/hadoop-2.5.2$./bin/hdfs namenode -format
或者

hadoop@liuyazhuang-01:~ hadoop namenode -format

十一、启动hadoop集群

hadoop@liuyazhuang-01:~/data/hadoop-2.5.2$./sbin/start-dfs.sh
hadoop@liuyazhuang-01:~/data/hadoop-2.5.2$./sbin/start-yarn.sh

十二、浏览器查看

浏览器打开 http://liuyazhuang-01:50070/,会看到hdfs管理页面
浏览器打开 http://liuyazhuang-01:8088/,会看到hadoop进程管理页面
浏览器打开 http://liuyazhuang-01:8088/cluster 查看cluster情况

十三、验证(WordCount验证)

1.dfs上创建input目录

hadoop@liuyazhuang-01:~/data/hadoop-2.5.2$bin/hadoop fs -mkdir -p input

2.把hadoop目录下的README.txt拷贝到dfs新建的input里

hadoop@liuyazhuang-01:~/data/hadoop-2.5.2$bin/hadoop fs -copyFromLocal README.txt input

3.运行WordCount

hadoop@liuyazhuang-01:~/data/hadoop-2.5.2$bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.5.2-sources.jar org.apache.hadoop.examples.WordCount input output

4.运行完毕后,查看单词统计结果

hadoop@liuyazhuang-01:~/data/hadoop-2.5.2$bin/hadoop fs -cat output/*
假如程序的输出路径为output,如果该文件夹已经存在,先删除
hadoop@liuyazhuang-01:~/data/hadoop-2.5.2$bin/hadoop dfs -rmr output
参考资料:

Ubuntu14.04下安装Hadoop2.4.0 (单机模式)
http://www.cnblogs.com/kinglau/p/3794433.html

Ubuntu14.04下安装Hadoop2.4.0 (伪分布模式)
http://www.cnblogs.com/kinglau/p/3796164.html


伪分布模式下执行wordcount实例时报错解决办法
http://www.cnblogs.com/kinglau/p/3364928.html


Eclipse下搭建Hadoop2.4.0开发环境
http://www.cnblogs.com/kinglau/p/3802705.html

Hadoop学习三十:Win7 Eclipse调试Centos Hadoop2.2-Mapreduce
http://zy19982004.iteye.com/blog/2024467


hadoop2.5.0 centOS系列 分布式的安装 部署
http://my.oschina.net/yilian/blog/310189


Centos6.5源码编译安装Hadoop2.5.1
http://www.myhack58.com/Article/sort099/sort0102/2014/54025.htm

Hadoop MapReduce两种常见的容错场景分析
http://www.chinacloud.cn/show.aspx?id=15793&cid=17

hadoop 2.2.0集群安装
http://blog.csdn.net/bluishglc/article/details/24591185

Apache Hadoop 2.2.0 HDFS HA + YARN多机部署
http://blog.csdn.net/u010967382/article/details/20380387

Hadoop集群配置(最全面总结)
http://blog.csdn.net/hguisu/article/details/7237395

Hadoop hdfs-site.xml 配置项清单
http://he.iori.blog.163.com/blog/static/6955953520138107638208/
http://slaytanic.blog.51cto.com/2057708/1101111


Hadoop三种安装模式
http://blog.csdn.net/liumm0000/article/details/13408855


1
0
查看评论

Hadoop2.5.2完全分布式环境搭建

Hadoop2.5.2完全分布式环境搭建 本文搭建Hadoop 2.5.2 版本的完全分布式系统,主要是 HDFS HA,忽略了ResourceManger HA  、Web Application Proxy 和Job HistoryServer。  &#...
  • liushahe2012
  • liushahe2012
  • 2016-11-27 14:42
  • 1727

hadoop2.5.1单机模式简易安装教程

必要安装: JDK1.7(JDK1.6.0_20以下的话会有问题,JDK1.6.0_20以上也行) SSH client和service(hadoop通过脚本连接ssh管理远程节点) 免密码SSH登陆 由于hadoop需要通过ssh管理系统级守护进程,并且在运行hadoop命令时使用...
  • tinico
  • tinico
  • 2014-11-24 09:50
  • 4526

Hadoop-2.5.2集群安装配置详解

转载请注明出处:http://blog.csdn.net/tang9140/article/details/42869531 最近学习了下hadoop的安装。下面详细说明下步骤 一、环境 我的是在Linux环境下进行安装的。对于想在windows系统上学习的同学,可以采用虚拟机方式或通过cyg...
  • tang9140
  • tang9140
  • 2015-01-19 09:43
  • 5280

Hadoop集群安装-安装Hadoop2.5.2

1.现在的虚拟机集合 192.168.137.2 node1 192.168.137.3 node2 192.168.137.4 node3 192.168.137.5 node4 2.配置ssh免密码登录 在node1,2,3,4上都运行下面两行: ssh-keygen -t dsa -P...
  • gao1440156051
  • gao1440156051
  • 2017-01-15 22:35
  • 357

hadoop入门系列之三【hadoop的安装与配置】

Hadoop完全分布式集群环境搭建
  • u014548782
  • u014548782
  • 2015-10-08 23:05
  • 5382

Hadoop学习之一《环境搭建及配置》

问题?Hadoop学习之环境搭建及配置
  • Mr_li13
  • Mr_li13
  • 2016-09-01 10:49
  • 1032

Hadoop学习笔记-Hadoop HDFS环境搭建

Hadoop HDFS环境配置
  • u012342408
  • u012342408
  • 2016-01-18 22:14
  • 11308

史上最详细的Hadoop环境搭建

GitChat 作者:鸣宇淳 原文: 史上最详细的Hadoop环境搭建 关注公众号:GitChat 技术杂谈,一本正经的讲技术 【不要错过文末活动哦】前言Hadoop在大数据技术体系中的地位至关重要,Hadoop是大数据技术的基础,对Hadoop基础知识的掌握...
  • hliq5399
  • hliq5399
  • 2017-10-10 15:23
  • 5561

完整配置hadoop的环境变量

修改hadoop解压文件名称 :  mv hadoop-2.4.1 hadoop 将hadoop安装目录的权限赋值为hadoop用户: chown -R hadoop:hadoop hadoop 创建Hadoop数据目录,并赋予权限: [root@djt java]# mkd...
  • liu145365
  • liu145365
  • 2016-05-24 20:24
  • 3358

搭建hadoop环境,CentOS6.5安装Hadoop2.7.3完整流程

转载地址:http://www.open-open.com/lib/view/open1435761287778.html 总体思路,准备主从服务器,配置主服务器可以无密码SSH登录从服务器,解压安装JDK,解压安装Hadoop,配置hdfs、mapreduce等主从关系。 1、环境,3台Cent...
  • u014019693
  • u014019693
  • 2016-11-11 21:05
  • 5631
    个人资料
    • 访问:2121747次
    • 积分:27125
    • 等级:
    • 排名:第245名
    • 原创:819篇
    • 转载:12篇
    • 译文:0篇
    • 评论:315条
    博客专栏
    算法

    文章:1篇

    阅读:215
    Android

    文章:80篇

    阅读:240050
    Python

    文章:50篇

    阅读:37487
    搜索优化

    文章:21篇

    阅读:26613
    Nginx

    文章:17篇

    阅读:56908
    Dubbo

    文章:20篇

    阅读:45787
    JMS

    文章:13篇

    阅读:12140
    Netty

    文章:1篇

    阅读:1922
    Redis

    文章:18篇

    阅读:95410
    Memcached

    文章:9篇

    阅读:47145
    设计模式

    文章:22篇

    阅读:49567
    Mycat

    文章:20篇

    阅读:27376
    Web前端

    文章:22篇

    阅读:85520
    Linux

    文章:77篇

    阅读:231694
    JVM

    文章:15篇

    阅读:52051
    J2EE

    文章:74篇

    阅读:285026
    Java

    文章:153篇

    阅读:525924
    Hadoop生态

    文章:135篇

    阅读:207989
    MySQL

    文章:130篇

    阅读:274837
    最新评论