用cygwin实现hadoop 全分布配置

最近在研究hadoop

搞了半个月终于实现在window下利用cygwin的全分布配置

环境

1、hadoop 0.20.2

2、vista 机器一台 192.168.0.102   机器名:ken-PC(master)

       winxp 虚拟机   192.168.0.222  机器名:winxp   (slaves)


步骤

1、分别在vista和xp上安装cygwin,分别在两个系统中建立两个名字相同的用户,ken,配置好SSH,确保master机器可以无密码在cygwin上访问slaves机器, 这个网上很多文章有介绍,记得关闭window防火墙,否则无办法互联

2、在vista上安装hadoop,具体配置如下,注意红色字

  hadoop-env.sh

# Set Hadoop-specific environment variables here.


# The only required environment variable is JAVA_HOME.  All others are
# optional.  When running a distributed configuration it is best to
# set JAVA_HOME in this file, so that it is correctly defined on
# remote nodes.


# The java implementation to use.  Required.
 export JAVA_HOME=/cygdrive/C/soft/Java/jdk1.6.0_12 


# Extra Java CLASSPATH elements.  Optional.
# export HADOOP_CLASSPATH=


# The maximum amount of heap to use, in MB. Default is 1000.
# export HADOOP_HEAPSIZE=2000


# Extra Java runtime options.  Empty by default.
# export HADOOP_OPTS=-server


# Command specific options appended to HADOOP_OPTS when specified
export HADOOP_NAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_NAMENODE_OPTS"
export HADOOP_SECONDARYNAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_SECONDARYNAMENODE_OPTS"
export HADOOP_DATANODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_DATANODE_OPTS"
export HADOOP_BALANCER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_BALANCER_OPTS"
export HADOOP_JOBTRACKER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_JOBTRACKER_OPTS"
# export HADOOP_TASKTRACKER_OPTS=
# The following applies to multiple commands (fs, dfs, fsck, distcp etc)
# export HADOOP_CLIENT_OPTS


# Extra ssh options.  Empty by default.
# export HADOOP_SSH_OPTS="-o ConnectTimeout=1 -o SendEnv=HADOOP_CONF_DIR"


# Where log files are stored.  $HADOOP_HOME/logs by default.
# export HADOOP_LOG_DIR=${HADOOP_HOME}/logs


# File naming remote slave hosts.  $HADOOP_HOME/conf/slaves by default.
# export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves


# host:path where hadoop code should be rsync'd from.  Unset by default.
# export HADOOP_MASTER=master:/home/$USER/src/hadoop


# Seconds to sleep between slave commands.  Unset by default.  This
# can be useful in large clusters, where, e.g., slave rsyncs can
# otherwise arrive faster than the master can service them.
# export HADOOP_SLAVE_SLEEP=0.1


# The directory where pid files are stored. /tmp by default.
# export HADOOP_PID_DIR=/var/hadoop/pids


# A string representing this instance of hadoop. $USER by default.
# export HADOOP_IDENT_STRING=$USER


# The scheduling priority for daemon processes.  See 'man nice'.
# export HADOOP_NICENESS=10



core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>

<property><name>fs.default.name</name><value>hdfs://192.168.0.102:9991</value></property>

<property><name>hadoop.tmp.dir</name><value>/root/hadoopfile/202/coretmp/</value></property>

</configuration>



hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>

<property><name>dfs.replication</name><value>1</value></property>

<property><name>dfs.name.dir</name><value>hadoopfile/name/</value></property>

<property><name>dfs.data.dir</name><value>hadoopfile/data/</value></property>

</configuration>


mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property><name>mapred.job.tracker</name><value>192.168.0.102:9992</value></property>

<property><name>mapred.child.tmp</name><value>C:\root\tmp</value></property>

</configuration>

注意:mapred.child.tmp一定要是绝对路径



masters

192.168.0.102


slaves

192.168.0.222


3、在虚拟的winxp上安装hadoop,配置文件内容要与vista上的配置文件内容相同,hadoop  存放的路径也要与vista相同


4、分别在vista和winxp上的host文件添加如下内容

192.168.0.102             ken-PC
192.168.0.222             winxp

大小写敏感


5、在vista上格式化hadoop


6、在vista上启动hadoop


7、在vista上通过http://localhost:50070查看运行情况

 

8、在vista上运行wordcount示例

首先在hadoop当前目录建立一个input文件

然后在input文件中建立两个text文件,文件内容随意


在cygwin里面输入


运行wordcount



 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Windows系统上安装和配置Hadoop可以按照以下步骤进行: 1. 安装JDK:首先,需要安装JDK 1.6或更高版本。你可以从Oracle官网下载[JDK](https://www.oracle.com/java/technologies/javase-jdk14-downloads.html)并按照安装向导进行安装。安装完成后,确保将JDK的路径添加到系统的环境变量中。 2. 安装CygwinCygwin是一个在Windows环境下提供类Unix功能的开源工具。你可以从[Cygwin官网](http://cygwin.com/install.html)下载安装程序并按照指南进行安装。安装过程中需要选择一些基本软件包和组件,确保选择安装OpenSSH、rsync、tar、unzip等工具。 3. 下载Hadoop:从[Hadoop官网](https://archive.apache.org/dist/hadoop/)下载所需要的Hadoop版本,并解压到一个合适的目录。 4. 配置环境变量:将Hadoop的bin目录路径添加到系统的环境变量中。你可以通过以下步骤进行配置: - 右键点击“计算机”(或“此电脑”,根据操作系统语言不同)图标,选择“属性”。 - 在窗口左侧选择“高级系统设置”。 - 在弹出的窗口中,点击“环境变量”按钮。 - 在“系统变量”部分中,找到名为“Path”的变量,并双击进行编辑。 - 在变量值的末尾添加Hadoop的bin目录路径,例如:C:\hadoop-1.2.1\bin。 - 点击“确定”保存配置。 5. 配置winutils:根据你下载的Hadoop版本,去[Hadoop官网](https://archive.apache.org/dist/hadoop/)找到对应版本的winutils。将下载好的winutils\bin目录下的文件复制到Hadoop的bin目录中。另外,将hadoop.dll文件复制到C:\Windows\System32目录中。 至此,你已经完成了Hadoop在Windows系统下的安装和配置。你可以进一步根据Hadoop的[官方文档](http://hadoop.apache.org/docs/stable/cluster_setup.html)了解如何使用和配置Hadoop集群。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值