在 Windows 平台下部署 Hadoop 开发环境

最新推荐文章于 2022-09-15 10:43:43 发布

azhao_dn

最新推荐文章于 2022-09-15 10:43:43 发布

阅读量1.2k

点赞数

分类专栏： hadoop 文章标签： hadoop windows 平台 eclipse lucene 全文检索

hadoop 专栏收录该内容

63 篇文章 0 订阅

订阅专栏

转载自：魏仁言的博客，原文地址

在 Windows 平台下部署 Hadoop 开发环境

魏仁言 2010.6.8

Hadoop简介

Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架，由于分布式存储对于分布式编程来说是必不可少的，这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System ) 。也许到目前为止，Hadoop 还不是那么广为人知，其最新的版本号也仅仅是 0.20 ，距离 1.0 似乎都还有很长的一段距离，但提及 Hadoop 一脉相承的另外两个开源项目 Nutch 和 Lucene ( 三者的创始人都是 Doug Cutting ), 那绝对是大名鼎鼎。Lucene 是一个用 Java 开发的开源高性能全文检索工具包，它不是一个完整的应用程序，而是一套简单易用的 API 。在全世界范围内，已有无数的软件系统，Web 网站基于 Lucene 实现了全文检索功能，后来 Doug Cutting 又开创了第一个开源的 Web 搜索引擎(http://www.nutch.org ) Nutch, 它在 Lucene 的基础上增加了网络爬虫和一些和 Web 相关的功能，一些解析各类文档格式的插件等，此外，Nutch 中还包含了一个分布式文件系统用于存储数据。从 Nutch 0.8.0 版本之后，Doug Cutting 把 Nutch 中的分布式文件系统以及实现 MapReduce 算法的代码独立出来形成了一个新的开源项 Hadoop 。Nutch 也演化为基于 Lucene 全文检索以及 Hadoop 分布式计算平台的一个开源搜索引擎。

基于 Hadoop, 你可以轻松地编写可处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。从目前的情况来看，Hadoop 注定会有一个辉煌的未来：" 云计算" 是目前灸手可热的技术名词，全球各大 IT 公司都在投资和推广这种新一代的计算模式，而 Hadoop 又被其中几家主要的公司用作其" 云计算" 环境中的重要基础软件，如: 雅虎正在借助 Hadoop 开源平台的力量对抗 Google, 除了资助 Hadoop 开发团队外，还在开发基于 Hadoop 的开源项目 Pig, 这是一个专注于海量数据集分析的分布式计算程序。Amazon 公司基于 Hadoop 推出了 Amazon S3 ( Amazon Simple Storage Service ) ，提供可靠，快速，可扩展的网络存储服务，以及一个商用的云计算平台 Amazon EC2 ( Amazon Elastic Compute Cloud ) 。在 IBM 公司的云计算项目--" 蓝云计划" 中，Hadoop 也是其中重要的基础软件。Google 正在跟IBM 合作，共同推广基于 Hadoop 的云计算。

准备：

1. Java 1.6 以上

2. Eclipse Europa 3.3.2

3. Cygwin

4. Hadoop-0.20.2

1. 安装 Cygwin

Hadoop 主要是在 Linux 平台下运行的，如果想在 Windows 平台下运行，你需要安装 Cygwin 才能运行， Hadoop 脚本。

a. 下载 Cygwin 安装包 (here .)

b. 运行安装包，你将要看到下图。

c. 安装时一定要确认选择“ openssh ”安装包。如下图：

d. 完成安装

2. 安装 SSH 守护进程

Hadoop 分布式运行需要 SSH 。所以这一部分介绍在 Cygwin 下配置 SSH 守护进程。

a. 打开 Cygwin 命令环境

b. 执行以下命令

        rywei@RYWEI$ chmod +r /etc/group
       rywei@RYWEI$ chmod +r /etc/passwd

rywei@RYWEI$ chmod +rwx /var

rywei@RYWEI$ ssh-host-config

c. · When asked if privilege separation should be used, answer no .

记着一定要答no, 否则用Hadoop-Ecliple Plugin 插件进行开发时，会提示你没有权限操作文件，不能写等错误。（我因为这个问题头痛了好长时间，最后才找到是这里出现问题的。）

· When asked if sshd should be installed as a service, answer yes .

· When asked about the value of CYGWIN environment variable enter ntsec .

d. 配置完后，启动 SSHD 守护进程

运行： n et start sshd 或者通过 Windows 服务，启动 CYGWINSSHD 服务 .

想要停止服务运行： n et stop sshd 就可以了

e. 生成密钥

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
f. 测试

最后运行以下命令测试

ssh localhost

如果没有问题会提示以下内容:

The authenticity of host 'localhost (127.0.0.1)' can't be established.

RSA key fingerprint is 08:03:20:43:48:39:29:66:6e:c5:61:ba:77:b2:2f:55.

Are you sure you want to continue connecting (yes/no)? yes

Warning: Permanently added 'localhost' (RSA) to the list of known hosts.

rywei@localhost's password:

会提示输入你机子的登录密码，输入无误后，会出现文本图形，类似于欢迎的提示：

The Hippo says: Welcome to

如果你不想每次都要输入密码，可以执行以下命令即可

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

3. Hadoop 安装配置

a. 从Hadoop 网站下载最新的安装包( 当前版本:hadoop-0.20.2)(here )

b. 解压hadoop-0.20.2 安装包到你的主目录(/home/username/)

修改conf/hadoop-env.sh 文件，将export JAVA_HOME 的值修改为你机上的jdk 安装目录，比如/cygdrive/d/tools/jdk1.6.0_03 ，/cygdrive 是Cygwin 安装成功后系统的根目录如果你的JDK 安装在“C:/Program Files/Java/jdk1.6.0_20 ” ，请用引号括住。

如：export JAVA_HOME='C:/Program Files/Java/jdk1.6.0_20'

c. 在Hadoop 主目录内创建logs 目录，用以存放Hadoop 日志信息

d. 配置Hadoop

Hadoop 可以用以下三种支持的模式中的一种启动 Hadoop 集群：

单机模式
伪分布式模式
完全分布式模式

单机模式的操作方法

默认情况下， Hadoop 被配置成以非分布式模式运行的一个独立 Java 进程。这对调试非常有帮助。

下面的实例将已解压的 conf 目录拷贝作为输入，查找并显示匹配给定正则表达式的条目。输出写入到指定的 output 目录。
$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
$ cat output/*

伪分布式模式的操作方法

Hadoop 可以在单节点上以所谓的伪分布式模式运行，此时每一个 Hadoop 守护进程都作为一个独立的 Java 进程运行。

使用如下配置 :
conf/core-site.xml :

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

conf/hdfs-site.xml :

<name>dfs.replication</name>

</property>

</configuration>

conf/mapred-site.xml :

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

在 Cygwin 下必须设置中间的暂存目录，否则会出错的

在mapred-site.xml中：

添加:

<name>mapred.child.tmp</name>

<value>/home/hadoop-0.20.1/temp</value>

</property>

注：我就是忘记设置这个参数，代码总是不能成功运行, 产生如下错误：

10/05/04 09:15:50 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.

10/05/04 09:15:50 INFO mapred.FileInputFormat: Total input paths to process : 4

10/05/04 09:15:51 INFO mapred.JobClient: Running job: job_201005040912_0002

10/05/04 09:15:52 INFO mapred.JobClient: map 0% reduce 0%

10/05/04 09:15:58 INFO mapred.JobClient: Task Id : attempt_201005040912_0002_m_000006_0, Status : FAILED

java.io.FileNotFoundException: File C:/tmp/hadoop-SYSTEM/mapred/local/taskTracker/jobcache/job_201005040912_0002/attempt_201005040912_0002_m_000006_0/work/tmp does not exist.

at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:420)

at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:244)

at org.apache.hadoop.mapred.TaskRunner.setupWorkDir(TaskRunner.java:520)

at org.apache.hadoop.mapred.Child.main(Child.java:143)

10/05/04 09:16:03 INFO mapred.JobClient: Task Id : attempt_201005040912_0002_m_000006_1, Status : FAILED

java.io.FileNotFoundException: File C:/tmp/hadoop-SYSTEM/mapred/local/taskTracker/jobcache/job_201005040912_0002/attempt_201005040912_0002_m_000006_1/work/tmp does not exist.

at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:420)

at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:244)

at org.apache.hadoop.mapred.TaskRunner.setupWorkDir(TaskRunner.java:520)

at org.apache.hadoop.mapred.Child.main(Child.java:143)