用cygwin实现hadoop 全分布配置

原创 2012年03月30日 23:31:57

最近在研究hadoop

搞了半个月终于实现在window下利用cygwin的全分布配置

环境

1、hadoop 0.20.2

2、vista 机器一台 192.168.0.102   机器名:ken-PC(master)

       winxp 虚拟机   192.168.0.222  机器名:winxp   (slaves)


步骤

1、分别在vista和xp上安装cygwin,分别在两个系统中建立两个名字相同的用户,ken,配置好SSH,确保master机器可以无密码在cygwin上访问slaves机器, 这个网上很多文章有介绍,记得关闭window防火墙,否则无办法互联

2、在vista上安装hadoop,具体配置如下,注意红色字

  hadoop-env.sh

# Set Hadoop-specific environment variables here.


# The only required environment variable is JAVA_HOME.  All others are
# optional.  When running a distributed configuration it is best to
# set JAVA_HOME in this file, so that it is correctly defined on
# remote nodes.


# The java implementation to use.  Required.
 export JAVA_HOME=/cygdrive/C/soft/Java/jdk1.6.0_12 


# Extra Java CLASSPATH elements.  Optional.
# export HADOOP_CLASSPATH=


# The maximum amount of heap to use, in MB. Default is 1000.
# export HADOOP_HEAPSIZE=2000


# Extra Java runtime options.  Empty by default.
# export HADOOP_OPTS=-server


# Command specific options appended to HADOOP_OPTS when specified
export HADOOP_NAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_NAMENODE_OPTS"
export HADOOP_SECONDARYNAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_SECONDARYNAMENODE_OPTS"
export HADOOP_DATANODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_DATANODE_OPTS"
export HADOOP_BALANCER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_BALANCER_OPTS"
export HADOOP_JOBTRACKER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_JOBTRACKER_OPTS"
# export HADOOP_TASKTRACKER_OPTS=
# The following applies to multiple commands (fs, dfs, fsck, distcp etc)
# export HADOOP_CLIENT_OPTS


# Extra ssh options.  Empty by default.
# export HADOOP_SSH_OPTS="-o ConnectTimeout=1 -o SendEnv=HADOOP_CONF_DIR"


# Where log files are stored.  $HADOOP_HOME/logs by default.
# export HADOOP_LOG_DIR=${HADOOP_HOME}/logs


# File naming remote slave hosts.  $HADOOP_HOME/conf/slaves by default.
# export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves


# host:path where hadoop code should be rsync'd from.  Unset by default.
# export HADOOP_MASTER=master:/home/$USER/src/hadoop


# Seconds to sleep between slave commands.  Unset by default.  This
# can be useful in large clusters, where, e.g., slave rsyncs can
# otherwise arrive faster than the master can service them.
# export HADOOP_SLAVE_SLEEP=0.1


# The directory where pid files are stored. /tmp by default.
# export HADOOP_PID_DIR=/var/hadoop/pids


# A string representing this instance of hadoop. $USER by default.
# export HADOOP_IDENT_STRING=$USER


# The scheduling priority for daemon processes.  See 'man nice'.
# export HADOOP_NICENESS=10



core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>

<property><name>fs.default.name</name><value>hdfs://192.168.0.102:9991</value></property>

<property><name>hadoop.tmp.dir</name><value>/root/hadoopfile/202/coretmp/</value></property>

</configuration>



hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>

<property><name>dfs.replication</name><value>1</value></property>

<property><name>dfs.name.dir</name><value>hadoopfile/name/</value></property>

<property><name>dfs.data.dir</name><value>hadoopfile/data/</value></property>

</configuration>


mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property><name>mapred.job.tracker</name><value>192.168.0.102:9992</value></property>

<property><name>mapred.child.tmp</name><value>C:\root\tmp</value></property>

</configuration>

注意:mapred.child.tmp一定要是绝对路径



masters

192.168.0.102


slaves

192.168.0.222


3、在虚拟的winxp上安装hadoop,配置文件内容要与vista上的配置文件内容相同,hadoop  存放的路径也要与vista相同


4、分别在vista和winxp上的host文件添加如下内容

192.168.0.102             ken-PC
192.168.0.222             winxp

大小写敏感


5、在vista上格式化hadoop


6、在vista上启动hadoop


7、在vista上通过http://localhost:50070查看运行情况

 

8、在vista上运行wordcount示例

首先在hadoop当前目录建立一个input文件

然后在input文件中建立两个text文件,文件内容随意


在cygwin里面输入


运行wordcount



 


Hadoop全分布集群搭建(3)——Hadoop安装与配置

Hadoop全分布集群搭建3Hadoop安装与配置 安装JDK 安装配置HadoopHadoop全分布集群搭建(3)——Hadoop安装与配置前期准备工作要完成: Hadoop全分布集群搭建(1)—...
  • SungLee_1992
  • SungLee_1992
  • 2017年05月15日 20:25
  • 262

hadoop学习笔记之--完全分布模式安装

Hadoop完全分布式模式安装步骤   Hadoop模式介绍 单机模式:安装简单,几乎不用作任何配置,但仅限于调试用途 伪分布模式:在单节点上同时启动namenode、datanode、jobtrac...
  • lichangzai
  • lichangzai
  • 2012年11月21日 10:45
  • 8372

Ubuntu 16.04 Hadoop-2.7.3全分布模式 + eclipse hadoop

Ps:主要答疑区在本帖最下方,疑点会标注出来。个人在配置过程中遇到的困难都会此列举。   实验介绍:   本次实验主要介绍了Hadoop平台的两个核心工具,HDFS和Mapreduce,结合这两...
  • sinat_28177969
  • sinat_28177969
  • 2017年01月06日 15:00
  • 1882

hadoop2.6.0全分布实现

本文章在转载的基础上,实践的时候做了一些文档的完善 环境:centos 6.5 + hadoop2.6 虚拟机:(vmware fusion 7.0.0) 虚拟机hostname      /   ...
  • wang1472jian1110
  • wang1472jian1110
  • 2016年03月25日 18:46
  • 968

【Hadoop入门学习系列之一】Ubuntu下安装Hadoop(完全分布模式)

一.前言hadoop的安装模式主要有三种:单机模式,伪分布模式和集群模式。单机模式和伪分布模式的安装配置请参考上文【Hadoop入门学习系列之一】Ubuntu下安装Hadoop(单机模式+伪分布模式)...
  • shengmingqijiquan
  • shengmingqijiquan
  • 2016年10月15日 20:49
  • 857

Hadoop完全分布配置过程

准备工作:         JDK1.8.x hadoop2.7.2 eclipse 虚拟机:Ubuntu14.04               master:namenode、secondary...
  • baidu_26611019
  • baidu_26611019
  • 2017年06月10日 22:39
  • 270

hadoop学习笔记(六)——hadoop2.5.2全分布模式实现的部署

环境:centos7 + hadoop2.5.2 + jdk1.7 已经在前两篇博客中出现的步骤具体细节一笔带过,不再展示,具体可以参考ssh免密码登陆,伪分布 1)  SSH免密码登陆 2...
  • thinkpadshi
  • thinkpadshi
  • 2015年06月19日 13:15
  • 2456

win7+cygwin+hadoop亲测成功

Windows7 下安装Hadoop(一) ---在window下配置安装之cygwin的安装 如果想在window系统环境下运行hadoop就要安装Cygwin---一个模拟linux环境的软件。可...
  • AllKillMan
  • AllKillMan
  • 2016年08月23日 11:15
  • 3368

Windows下安装Cygwin配置Hadoop集群

Hadoop集群一般是配置到Linux系统之上,如果电脑用的是Windows系统,那么可以通过虚拟机安装Linux系统或者在Windows上安装Cygwin来模拟Linux环境,从而搭建Hadoop集...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年03月17日 21:42
  • 1389

Hadoop完全分布式集群配置

1.前话寒假实在太闲了,所以闲着无聊地去了解“大数据”这个新概念,这几年到处都在说什么大数据时代的,不能不让我感到好奇啊。 大数据有啥用?随便谷歌百度一大堆我也不多说了。 我自己的理解是,单个数据...
  • pwc1996
  • pwc1996
  • 2016年03月13日 13:23
  • 428
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:用cygwin实现hadoop 全分布配置
举报原因:
原因补充:

(最多只允许输入30个字)