本文的环境搭建是: Mac OS X 10.7.5。
Hadoop部署之前必备软件:JDK、SSH、Hadoop-1.0.4版本。
二、部署过程说明参考网上相关资源,本文进行Hadoop伪分部环境部署
详细操作步骤如下。
2.1、必备软件准备安装JDK,SSH安装配置
2.1.1、安装JDKMacOS 默认为我们安装了openjava,我们可以自主选择使用默认版本或者下载安装版本,再次我选择使用默认版本。 我们可以在terminal中输入 java –version 查看jdk版本号,本机jdk版本如下图
2.1.2、安装SSH
Mac OS 默认为我们安装了openssh, 我们可以自主选择使用默认版本或者下载安装版本,再次我选择使用默认版本。我们可以在terminal中输入 ssh –version 查看ssh版本号,本机ssh版本如下图
第一步:Hadoop官网下载1.0.4版本Hadoop的tar文件
第二步:将下载的tar文件解压到相应的目录:本文的放置目录如下图:
第一步:terminal中输入命令 pico ~/.bash_profile
第二步:在编辑状态下加入如下的环境变量
#setjava EnviromentexportJAVA_HOME=/System/Library/Java/JavaVirtualMachines/1.6.0.jdk/Contents/Ho$
exportCLASSPATH=CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
exportPATH=$PATH:$JAVA_HOME:$CLASSPATH
#Sethadoop Enviroment
exportHADOOP_HOME=/Users/lihui/hadoop-1.0.4
exportPATH=$PATH:$HADOOP_HOME:$HADOOP_HOME/bin:$HADOOP_HOME/conf
本文配置图示如下:
第三步:保存后关闭,并重启机器
2.1.5、SSH配置第一步:这个主要是配置ssh环境。先在terminal里面输入
ssh localhost 如果出现如下图的错误信息
表示当前用户没有权限。这个多半是系统为安全考虑,默认设置的。更改设置如下:进入system preference(系统偏好设置) --> sharing(共享) --> 勾选remote login(远程登陆),并设置allow access for all users(所有用户)。
再次输入“ssh localhost",再输入密码并确认之后,可以看到ssh成功。
第二步:创建免登陆的ssh-key
terminal里面输入: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
ssh-keygen表示生成秘钥;-t表示秘钥类型;-P用于提供密语;-f指定生成的秘钥文件。这个命令在”~/.ssh/“文件夹下创建两个文件id_dsa和id_dsa.pub,是ssh的一对儿私钥和公钥
第三步:将此ssh-key添加到信任列表中,并启用此ssh-key
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
在hadoop-env.sh文件中加入
exportJAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Home
注:JAVA_HOME根据自己的实际路径添加。
2.2.2、/conf/ core-site.xml 配置在core-site.xml文件,配置hdfs的地址和端口号
在<configuration>标签添加
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
2.2.3、/conf/ mapred-site.xml 配置在mapred-site.xml文件,设置map-reduce中jobtracker的地址和端口号
在<configuration>标签添加
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
2.2.4、/conf/hdfs-site.xml 配置1:在hdfs-site.xml文件中,设置hdfs的默认备份方式。默认值是3,在伪分布式系统中,需要修改为1,如下:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
2:设置hadoop.tmp.dir,dfs.data.dir, dfs.name.dir 如下:
<property>
<name>hadoop.tmp.dir</name>
<value>/Users/lihui/hadoop-1.0.4/data/hdfs/hdfstmp</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/Users/lihui/hadoop-1.0.4/data/hdfs/hdfsdata1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/Users/lihui/hadoop-1.0.4/data/hdfs/hdfs1</value>
</property>
注:此三项都有默认路径,但是当系统每次关闭重启后都被删除,所以最好自定义路径
2.3、启动运行阶段2.3.1、格式化namenode (首次运行必需)
第一步:进入hadoop目录
cd hadoop-1.0.4
第二步:格式化namenode
bin/hadoop namenode –format
注:namenode必须小写
2.3.2、启动hadoop
第一步:启动hadoop
bin/start-all.sh
第二步:验证hadoop是否正常启动
在浏览器中分别输入[url=]http://localhost:50030和http://localhost:50070[/url];会出现如下的两个图示:表示配置成功
1、 《hadoop实战》