Hadoop 快速入门指南
引言
Hadoop,作为大数据处理的基石,对于初学者来说可能显得有些复杂。本文旨在通过简单的步骤,帮助您在单机上快速安装并运行Hadoop,让您能够体验到Hadoop分布式文件系统(HDFS)和Map-Reduce框架的强大功能。
先决条件
在开始之前,确保您的系统满足以下条件:
- 支持平台:GNU/Linux(推荐用于生产环境)或Win32(适用于开发环境)。
- 软件需求:Java 1.5.x、ssh、rsync(Linux)或Cygwin(Windows)。
安装与配置
Linux系统
以Ubuntu为例,您可以使用以下命令安装所需软件:
$ sudo apt-get install ssh
$ sudo apt-get install rsync
Windows系统
如果您使用的是Windows系统,并且安装了Cygwin,确保安装了以下软件包:
- openssh
下载Hadoop
从Apache的镜像服务器下载最新的稳定版Hadoop。
运行Hadoop集群
单机模式
Hadoop默认配置为单机模式,非常适合调试。以下是运行示例程序的步骤:
- 创建输入目录并复制配置文件:
$ mkdir input $ cp conf/*.xml input
- 运行示例程序:
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
- 查看输出结果:
$ cat output/*
伪分布式模式
伪分布式模式允许Hadoop在单节点上模拟分布式环境。配置如下:
<configuration>
<property>
<name>fs.default.name</name>
<value>localhost:9000</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
确保可以免密码SSH登录到localhost,然后格式化文件系统,启动守护进程,并运行示例程序。
完全分布式模式
对于搭建具有实际意义的完全分布式模式集群,你可以在下篇文章中找到更多信息。