在Linux上安装与配置Hadoop

最新推荐文章于 2024-06-15 21:55:46 发布

SimpleUmbrella

最新推荐文章于 2024-06-15 21:55:46 发布

阅读量1.1k

点赞数

原文见于：http://blog.sina.com.cn/s/blog_a94476040101cb2t.html

在Linux上安装Hadoop之前，需要安装两个程序：

l JDK1.6或者更高的版本；

l SSH（安全外壳协议），推荐安装OpenSSH

下面简述一下安装这两个程序的原因：

Hadoop使用Java开发的，Hadoop的编译及MapReduce的运行都需要使用JDK。

Hadoop需要通过SSH来启动salve列表中各台主机的守护进程，因此SSH也是必须安装的，即使是安装伪分布式版本（因为Hadoop并没有区分集群式和伪分布式）。对于伪分布式，Hadoop会采用与集群相同的处理方式，即依次序启动文件conf/slaves中记载的主机上进程，只不过伪分布式中salves为localhost（自身），所以对于伪分布式Hadoop，SSH一样是必须的。

1 安装JDK1.7

Linux会自带JDK，如果不使用自带版本的话需要卸载。

(一) 卸载系统自带的jdk版本

查看自带的jdk

#rpm-qa | grep gcj

看到如下信息：

libgcj-4.1.2-44.el5

java-1.4.2-gcj-compat-1.4.2.0-40jpp.115

使用rpm -e --nodeps 命令删除上面查找的内容：

#rpm-e --nodeps java-1.4.2-gcj-compat-1.4.2.0-40jpp.115

(二) 卸载rpm安装的jkd版本

查看安装的jdk：

#rpm-qa|grep jdk

看到如下信息：

java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5

卸载：

#rpm-e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5

(三) 安装jdk

首先到sun官网下载安装包，下面是最新的安装包http://java.sun.com/javase/downloads/index.jsp

如果希望找以前的版本，到下面的地址可以找到http://java.sun.com/products/archive/

有jdk-6u7-linux-i586-rpm.bin和jdk-6u7-linux-i586.bin两种版本。bin是二进制包，而rpm是redhat package就是红帽的标准安装包。区别就是rpm安装的时候给你自动配置，一般都是lib安装到/usr/lib，bin安装到/usr/bin下边，就算不是，在/usr/bin下也要建立一个软连接。

下边以现有最新版本jdk-7u3-linux-i586.rpm为例进行安装：

将安装文件放到:/usr/java目录下，修改权限，命令如下（需先用cd命令切换到相应目录下）：

#chmod +x jdk-7u3-linux-i586.rpm

执行文件的安装：

#rpm-ivh jdk-7u3-linux-i586.rpm

(四) 配置环境变量

修改/etc/profile文件，在该文件最后加上

exportJAVA_HOME=/usr/java/jdk1.7.0_03

exportPATH=$PATH: /usr/java/jdk1.7.0_03/bin

保存

(五) 执行

cd/etc

sourceprofile

(六) 验证JDK是否安装成功

[root@localhost ~]# java -version

javaversion "1.7.0"

Java(TM) SE Runtime Environment (build1.7.0-b147)

JavaHotSpot(TM) Server VM (build 21.0-b17, mixed mode)

2 配置SSH免密码登陆

首先，确保当前可以连接到互联网。在root下修改/etc/ssh/sshd_config文件（客户端、服务器都需要更改），将

#AuthorizedKeysFile .ssh/authorized_keys

前面的＃号去掉，即启用

AuthorizedKeysFile .ssh/authorized_keys

如果需要root也能ssh登录，把“#PermitRootLoginyes”前面的＃号也去掉。

同样root账户下，重启sshd服务使之生效

/etc/rc.d/init.d/sshd restart

客户端中，切换到需要ssh登录的帐户下:

ssh-keygen -t dsa

产生公私钥对。回车，采用默认文件保存钥匙。

xxxxx 回车键入密码短语，直接回车为不建立密码短语。密码短语至少5个字符

xxxxx 回车重复密码短语，直接回车为不建立密码短语

也可以：

ssh-keygen -t dsa -P ' ' -f /home/账户名/.ssh/id_dsa

ssh-keygen代表生成密钥；-t（注意区分大小写）表示指定生成的迷密钥类型；dsa是dsa密钥认证的意思，即密钥类型；-P用于提供密语；-f指定生成的密钥文件。这个

公私钥产生在此账户的.ssh目录中，id_dsa为私钥，id_dsa.pub为公钥

服务器中，切换到需要ssh登录的帐户下：

如果服务器中尚未建立公私钥对，那么首先按照客户端的方法建立公私钥对

scp 账户名@客户端主机名或ip地址:/home/帐户名/.ssh/id_dsa.pub /home/帐户名/

将客户端账户的公钥拷到服务器中。客户端用主机名或ip地址均可，但是需与ssh登录命令相符，建议将主机名与ip地址写入/etc/hosts中，此处用主机名即可（下同）。

yes 将客户端写入known_hosts中

输入客户端中的账户密码完成复制

将id_rsa.pub中的内容添加到authorized_keys文件中，authorized_keys文件名需与sshd_config中的设置相符

cat /home/帐户名/id_rsa.pub >>/home/帐户名/.ssh/authorized_keys

修改authorized_keys文件的权限，至少为644，也可更为严格（600），不修改的话ssh无密码登录不起作用：

chmod 644 /home/帐户名/.ssh/authorized_keys

客户端中，切换到需要ssh登录的帐户下:

ssh 服务器主机名 --登录服务器，若在服务器与客户端中的帐户名不同，则

ssh 帐户名@服务器主机名

yes --将服务器写入known_hosts中

若产生公私钥时设置了密码短语，还需要输入密码短语，为了方便，可在客户端中ssh-add，然后输入密码短语，下次再ssh登录，无需再输入密码短语。

验证：

[test@localhost ~]$ ssh -version

OpenSSH_4.3p2, OpenSSL 0.9.8e-fips-rhel5 01 Jul2008

Badescape character 'rsion'.

显示SSH已经安装成功了。输入命令：

sshlocalhost

会有如下显示：

[test@localhost .ssh]$ ssh localhost

Theauthenticity of host 'localhost (127.0.0.1)' can't beestablished.

RSAkey fingerprint is2b:36:6b:23:4d:e4:71:2b:b0:79:69:36:0e:65:3b:0f.

Areyou sure you want to continue connecting (yes/no)? yes

Warning: Permanently added 'localhost' (RSA) to the list ofknown hosts.

Lastlogin: Tue Oct 30 13:08:33 2012 fromlocalhost.localdomain

这说明已经安装成功，第一次登录时会询问你是否继续链接，输入yes即可进入。

实际上，在Hadoop的安装过程中，是否无密码登陆是无关紧要的，但是如果不配置无密码登录，每次启动Hadoop，都需要输入密码以登陆到每台机器的DataNode上，考虑到一般的Hadoop集群动辄数百台或上千台机器，因此一般来说都会配置SSH的无密码登录。

关于公私钥对的一点理解：公私钥对就像是一套钥匙和锁，公钥是锁，私钥是钥匙。私钥留在客户端中，公钥发给服务器。服务器可以有很多把锁，客户端只有一把钥匙。当客户端ssh登录服务器时，服务器会找到这个客户端发的锁，然后跟客户端要钥匙，如果钥匙是配套的，那么登录成功，反之登录失败。当然，以上是针对同一个用户说的，不同用户的公私钥对也不同，而且每次ssh-keygen产生的公私钥对也不同。

备注将普通用户修改为超级用户的方法：

l 进入超级用户模式。也就是输入"su -",系统会让你输入超级用户密码，输入密码后就进入了超级用户模式。

l 添加文件的写权限。也就是输入命令"chmod u+w /etc/sudoers"。

l 编辑/etc/sudoers文件。也就是输入命令"vim/etc/sudoers",输入"i"进入编辑模式，找到这一行："root ALL=(ALL)ALL"在起下面添加"xxx ALL=(ALL)ALL"(这里的xxx是你的用户名)，然后保存（就是先摁一下Esc键，然后输入":wq"）退出。

l 撤销文件的写权限。也就是输入命令"chmod u-w /etc/sudoers"。

3 安装并运行Hadoop

先介绍一下Hadoop对各个节点的角色意义：

Hadoop分别从三个角度将主机划分为两种角色。第一，划分为master和salve，即主人与奴隶；第二，从HDFS的角度，将主机划分为NameNode和DataNode（在分布式文件系统中，目标的管理很重要，管理目录的就相当于主人，而NameNode就是目录管理者）；第三，从MapReduce的角度，将主机划分为JobTracker和TaskTracker（一个job经常被划分为多个task，从这个角度不难理解它们之间的关系）。

Hadoop有官方发行版与cloudera版，其中cloudera版是Hadoop的商用版本。下面介绍Hadoop官方发行版的安装方法。

Hadoop有三种运行方式：单节点方式、单击伪分布方式与集群方式。乍看之下，前两种方式并不能体现云计算的优势，在实际应用中并没有什么意义，但是在程序的测试与调试过程中，他们还是很有意义的。

可以通过下面的地址下载获得Hadoop的官方发行版：

http://www.apache.org/dist/hadoop/core/

下载hadoop-1.0.4.tar.gz并将其解压，解压到用户目录下：/home/[用户]/

tar-xzvf hadoop-1.0.4.tar.gz

l 单节点方式配置

安装单节点的Hadoop无须配置，在这种方式下，Hadoop被认为是一个单独的java进程，这种方式经常用来测试。

l 伪分布式配置

可以把伪分布式的Hadoop看作是一个节点的集群，在这个集群中，这个节点既是master，也是salve；既是NameNode也是DataNode；既是JobTracker，也是TaskTracker。

伪分布式的配置过程也很简单，只需要修改几个文件，如下所示。

进入conf文件夹(在解压缩的目录下)，修改配置文件。

[test@localhost conf]$ pwd

/home/test/hadoop-1.0.4/conf

[test@localhost conf]$ ls hadoop-env.sh

hadoop-env.sh

[test@localhost conf]$ vim hadoop-env.sh

添加内容：

exportJAVA_HOME=/usr/java/jdk1.7.0

指定JDK的安装位置

[test@localhost conf]$ pwd

/home/test/hadoop-1.0.4/conf

[test@localhost conf]$ ls core-site.xml

core-site.xml

修改文件

[test@localhost conf]$ vim core-site.xml

添加内容：

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

这是hadoop核心的配置文件，这里配置的是HDFS的地址和端口号。

[test@localhost conf]$ ls hdfs-site.xml

hdfs-site.xml

修改文件：

<name>dfs.replication</name>

</property>

</configuration>

这是Hadoop中的HDFS的配置，配置的备份方式默认为3，在单机版的Hadoop中，需要将其改为1.

[test@localhost conf]$ ls mapred-site.xml

mapred-site.xml

[test@localhost conf]$ vim mapred-site.xml

修改文件：

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

这是Hadoop中MapReduce的配置文件，配置的是JobTracker的地址和端口。

需要注意的是，如果安装的是0.20之前的版本，那么只有一个配置文件，即为Hadoop-site.xml。

接下来，在启动Hadoop前，需格式化Hadoop的文件系统HDFS（这点与Windows是一样的，重新分区后的卷总是要格式化的）。进入Hadoop文件夹，输入下面的命令：

[test@localhost hadoop-1.0.4]$ bin/hadoopnamenode -format

12/11/01 00:20:50 INFO namenode.NameNode:STARTUP_MSG:

Re-format filesystem in /tmp/hadoop-test/dfs/name ? (Y orN) Y

12/11/01 00:20:55 INFO util.GSet: VMtype = 32-bit

12/11/01 00:20:55 INFO util.GSet: 2% max memory = 17.77875MB

12/11/01 00:20:55 INFO util.GSet:capacity = 2^22 = 4194304 entries

12/11/01 00:20:55 INFO util.GSet: recommended=4194304,actual=4194304

12/11/01 00:20:55 INFO namenode.FSNamesystem:fsOwner=test

12/11/01 00:20:55 INFO namenode.FSNamesystem:supergroup=supergroup

12/11/01 00:20:55 INFO namenode.FSNamesystem:isPermissionEnabled=true

12/11/01 00:20:55 INFO namenode.FSNamesystem:dfs.block.invalidate.limit=100

12/11/01 00:20:55 INFO namenode.FSNamesystem:isAccessTokenEnabled=false accessKeyUpdateInterval=0 min(s),accessTokenLifetime=0 min(s)

12/11/01 00:20:55 INFO namenode.NameNode: Caching filenames occuring more than 10 times

12/11/01 00:20:56 INFO common.Storage: Image file of size110 saved in 0 seconds.

12/11/01 00:20:56 INFO common.Storage: Storage directory/tmp/hadoop-test/dfs/name has been successfullyformatted.

12/11/01 00:20:56 INFO namenode.NameNode:SHUTDOWN_MSG:

格式化文件系统，接下来启动Hadoop。

首先赋予test用户hadoop文件夹的使用权限：

[test@localhost ~]$ chown -hR test/home/test/hadoop-1.0.4

输入命令：

[test@localhost hadoop-1.0.4]$ bin/start-all.sh

starting namenode, logging to/home/test/hadoop-1.0.4/libexec/../logs/hadoop-test-namenode-localhost.localdomain.out

localhost: starting datanode, logging to/home/test/hadoop-1.0.4/libexec/../logs/hadoop-test-datanode-localhost.localdomain.out

localhost: starting secondarynamenode, logging to/home/test/hadoop-1.0.4/libexec/../logs/hadoop-test-secondarynamenode-localhost.localdomain.out

starting jobtracker, logging to/home/test/hadoop-1.0.4/libexec/../logs/hadoop-test-jobtracker-localhost.localdomain.out

localhost: starting tasktracker, logging to/home/test/hadoop-1.0.4/libexec/../logs/hadoop-test-tasktracker-localhost.localdomain.out

利用jps查看已经启动的服务:

[test@localhost ~]$ cd /home/test/hadoop-1.0.4

[test@localhost hadoop-1.0.4]$ jps

12657SecondaryNameNode

12366NameNode

12995Jps

12877TaskTracker

12739JobTracker

12496DataNode

最后，验证Hadoop是否安装成功。打开浏览器，分别输入网址：

http://localhost:50070/(HDFS的Web页面)

http://localhost:50030/(MapReduce的Web页面)

如果都能看到，说明Hadoop已经安装成功。对于Hadoop来说，安装MapReduce及HDFS都是必须的，但是如果有必要，依然可以只启动HDFS或者MapReduce：

[test@localhost hadoop-1.0.4]$ bin/start-dfs.sh

[test@localhost hadoop-1.0.4]$bin/start-mapred.sh

4 搭建Hadoop的开发环境

Linux下安装eclipse

下载地址：http://www.eclipse.org/downloads/packages/eclipse-ide-java-ee-developers/junor

下载：eclipse-jee-juno-linux-gtk.tar.gz

解压缩：

[test@localhost ~]$ pwd

/home/test

[test@localhost ~]$ tar -xvfeclipse-jee-juno-linux-gtk.tar.gz

刚刚解压缩出来的Eclipse是找不到Java执行路径的，为了让每一位linux的使用者都可以执行eclipse，需要执行一下命令：

[test@localhost eclipse]$ /home/test/eclipse/eclipse -vm/usr/java/jdk1.7.0/bin/java -data ~/workspace

其中/home/test/eclipse/eclipse是对eclipse-jee-juno-linux-gtk.tar.gz解压之后的eclipse文件: -vm参数用以指定使用哪一个jvm来执行eclipse，在此我们指定之前安装的Sun JDK 1.7.0-01版-date 参数用以告诉eclipse要将项目储存在哪一个目录中。在此我们指定储存在使用者home目录(~)或用户根目录（"）的workspace 目录中。此时，会看到eclipse图形界面出现，安装成功。可以在桌面创建启动器，将启动命令写入：/home/test/eclipse/eclipse，这样每次在桌面上就可以直接启动eclipse了。

下载插件hadoop-eclipse-plugin-1.0.3.jar，将插件拷贝到/home/test/eclipse/plugins下即可。

在Linux上安装与配置Hadoop

n 在左边的 project explorer 上头会有一个 DFS locations的标志

n 在 windows -> preferences里面会多一个hadoopmap/reduce的选项，选中这个选项，然后右边，把下载的hadoop根目录选中

如果能看到以上两点说明安装成功了。

插件装完启动hadoop，然后就可以建一个hadoop连接了，就相当于eclipse里配置一个weblogic的连接。

第一步，打开Map/Reduce Locations 视图，在右上角有个大象的标志点击：

在Linux上安装与配置Hadoop

第二步，在点击大象后弹出的对话框进行进行参数的添加，如下图：

在Linux上安装与配置Hadoop

location name:这个随便填写：localhost.

Map/Reduce Master这个框里

Host：就是jobtracker所在的集群机器，这里写localhost

Hort：就是jobtracker的port，这里写的是9001

这两个参数就是mapred-site.xml里面mapred.job.tracker里面的ip和port

DFS Master这个框里

Host：就是namenode所在的集群机器，这里写localhost

Port：就是namenode的port，这里写9000

这两个参数就是core-site.xml里面fs.default.name里面的ip和port

（Use M/R master host，这个复选框如果选上，就默认和Map/ReduceMaster这个框里的host一样，如果不选择，就可以自己定义输入，这里jobtracker和namenode在一个机器上，所以是一样的，就勾选上）

username：这个是连接hadoop的用户名，因为我是用test用户安装的hadoop，而且没建立其他的用户，所以就用test。下面的不用填写。然后点击finish按钮，此时，这个视图中就有多了一条记录。

在Linux上安装与配置Hadoop

第三步，重启eclipse并重新编辑刚才建立的那个连接记录，如图现在编辑advance parameterstab页

在Linux上安装与配置Hadoop

（重启编辑advance parameters tab页原因：在新建连接的时候，这个advanceparamters tab页面的一些属性会显示不出来，显示不出来也就没法设置，所以必须重启一下eclipse再进来编辑才能看到）

这里大部分的属性都已经自动填写上了，其实就是把core-defaulte.xml、hdfs-defaulte.xml、mapred-defaulte.xml里面的一些配置属性展示出来。因为在安装hadoop的时候，其site系列配置文件里有改动，所以这里也要弄成一样的设置。主要关注的有以下属性：

fs.defualt.name：这个在Generaltab页已经设置了

mapred.job.tracker：这个在Generaltab页也设置了

然后点击finish，然后就连接上了，连接上的标志如图：

在Linux上安装与配置Hadoop

DFSLocations下面会有一只大象，下面会有一个文件夹，即hdfs的根目录，这里就是展示的分布式文件系统的目录结构了。

到这里为止，Eclipse hadoop开发环境配置已经完全搭建完毕。最后，就可以在eclipse中像一般java程序那样开发hadoop程序了。

下面做一个简单的测试：

(一) 第1步：新建项目。

File-->New-->Other-->Map/ReduceProject

项目名可以随便取，如WordCount。

复制 hadoop安装目录/src/example/org/apache/hadoop/example/WordCount.java到刚才新建的项目下面。

(二) 第2步：上传模拟数据文件夹。

为了运行程序，我们需要一个输入的文件夹，和输出的文件夹。

在本地新建word.txt

javac++ python c

javac++ javascript

helloworld hadoop

mapreduce java hadoop hbase

通过hadoop的命令在HDFS上创建/tmp/workcount目录，命令如下：

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -mkdir/tmp/wordcount/

通过copyFromLocal命令把本地的word.txt复制到HDFS上，命令如下：

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -copyFromLocal/tmp/word.txt /tmp/wordcount/word.txt

/tmp/word.txt是本地创建txt文件的路径，/tmp/wordcount/word.txt是HDFS上的路径。

(三) 第3步：运行项目

l 在新建的项目WordCount，点击WordCount.java，右键-->RunAs-->Run Configurations

l 在弹出的Run Configurations对话框中，点JavaApplication，右键-->New，这时会新建一个application名为WordCount

l 配置运行参数，点Arguments，在Programarguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”，如：

hdfs://localhost:9000/tmp/wordcount/word.txt hdfs:// localhost:9000/tmp/wordcount/out

l 如果运行时报java.lang.OutOfMemoryError: Java heap space配置VM arguments(在Programarguments下)

-Xms512m -Xmx1024m -XX:MaxPermSize=256m

在Linux上安装与配置Hadoop

l 点击Run，运行程序。

点击Run，运行程序，过段时间将运行完成，等运行结束后，查看运行结果，使用命令：

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -ls/tmp/wordcount/out

Found2 items

-rw-r--r-- 3 testsupergroup 0 2012-11-01 11:32 /tmp/wordcount/out/_SUCCESS

-rw-r--r-- 3 testsupergroup 812012-11-01 11:32 /tmp/wordcount/out/part-r-00000

查看例子的输出结果，发现有两个文件，使用命令查看part-r-00000文件，可以查看运行结果。

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -cat/tmp/wordcount/out/part-r-00000

c 1

c++ 2

hadoop 2

hbase 1

helloworld 1

java 3

javascript 1

mapreduce 1

python 1

删除到运行结果：

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -rmr/tmp/wordcount/out

Deleted hdfs://localhost:9000/tmp/wordcount/out

再次Run程序后查看结果：

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -ls/tmp/wordcount/out

Found2 items

-rw-r--r-- 3 testsupergroup 0 2012-11-01 11:37 /tmp/wordcount/out/_SUCCESS

-rw-r--r-- 3 testsupergroup 81 2012-11-01 11:37 /tmp/wordcount/out/part-r-00000

[test@localhost hadoop-1.0.4]$ bin/hadoop fs -cat/tmp/wordcount/out/part-r-00000

c 1

c++ 2

hadoop 2

hbase 1

helloworld 1

java 3

javascript 1

mapreduce 1

python 1

5 Hadoop包介绍

HadoopAPI被分成如下几种主要的包（package）：

org.apache.hadoop.conf	定义了系统参数的配置文件处理API
org.apache.hadoop.fs	定义了抽象的文件系统API
org.apache.hadoop.dfs	Hadoop分布式文件系统（HDFS）模块的实现
org.apache.hadoop.io	定义了通用的I/O API，用于针对网络，数据库，文件等数据对象做读写操作
org.apache.hadoop.ipc	用于网络服务端和客户端的工具，封装了网络异步I/O的基础模块
org.apache.hadoop.mapred	Hadoop分布式计算系统（MapReduce）模块的实现，包括任务的分发调度等
org.apache.hadoop.metrics	定义了用于性能统计信息的API，主要用于mapred和dfs模块
org.apache.hadoop.record	定义了针对记录的I/O API类以及一个记录描述语言翻译器，用于简化将记录序列化成语言中性的格式（language-neutralmanner）
org.apache.hadoop.tools	定义了一些通用的工具
org.apache.hadoop.util	定义了一些公用的API

SimpleUmbrella

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
在Linux上安装与配置Hadoop

原文见于：http://blog.sina.com.cn/s/blog_a94476040101cb2t.html在Linux上安装Hadoop之前，需要安装两个程序：l JDK1.6或者更高的版本；l SSH（安全外壳协议），推荐安装OpenSSH下面简述一下安装这两个程序的原因：Hadoop使用Java开发的，Hadoop的编译及MapReduce的运行都需要使
复制链接

扫一扫