设置hadoop 本地环境_设置独立(本地)Hadoop

设置hadoop 本地环境

Hadoop is designed to run on hundreds to thousands of computers inside cluster. However, Hadoop is configured to run things in a non-distributed mode as a single Java process by default. This is specially useful for debugging since distributed debugging is really a nightmare. This post introduces how to set up a standalone Hadoop environment.

Hadoop旨在在集群中的 数百至数千台计算机上运行。 但是,默认情况下,Hadoop被配置为以非分布式模式作为单个Java进程运行事物。 这对于调试特别有用,因为分布式调试确实是一场噩梦。 这篇文章介绍了如何设置独立的Hadoop环境。

1. Hadoop软件包和软件安装 (1. Hadoop package and software installation)

Follow the instruction of “1. Install needed packages” part in Hadoop Installation Tutorial to install packages. Fllow “4. Hadoop Concigurations” to configure hadoop-env.sh (this file only).

请遵循“ 1。 Hadoop安装教程中的 “安装所需的软件包”部分来安装软件包。 调剂“ 4。 Hadoop配置”中配置hadoop-env.sh(仅此文件)。

2.只需运行Hadoop! (2. Just run Hadoop!)

Just run hadoop jobs whose input and output is in local directories. We use a simple example to show how to start a Hadoop job.

只需运行hadoop作业,其输入和输出在本地目录中。 我们使用一个简单的示例来展示如何开始 Hadoop作业。

The example finds and displays every match of the given regular expression. Output is written to the given output directory.

该示例查找并显示给定正则表达式的每个匹配项。 输出被写入给定的输出目录。

$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-mapred-examples-0.21.0.jar grep input output '[a-z.]+'
$ cat output/*

The jar file’s name may be different depending on the Hadoop distribution’s version.

jar文件的名称可能会有所不同,具体取决于Hadoop发行版的版本。

Is it simple? Enjoy it and go further to play Fully-distributed Hadoop Installation.

简单吗? 尽情享受它,然后继续玩《 全分布式Hadoop安装》

翻译自: https://www.systutorials.com/setting-up-standalone-local-hadoop/

设置hadoop 本地环境

Hadoop是一个开源框架,允许在计算机集群上使用简单的编程模型存储和处理大数据。搭建Hadoop的本地模式(也称单机模式)和伪分布模式(也称单节点集群模式)可以用于开发和测试。 1. Hadoop本地模式搭建: 本地模式是指在一台机器上模拟Hadoop集群的环境,无需多台机器参与。这通常用于开发和测试小规模的程序。 - 步骤: a. 安装JDK:确保系统安装了Java开发工具包,并配置了JAVA_HOME环境变量。 b. 下载并解压Hadoop:从Apache官网下载Hadoop的稳定版本,并解压到本地目录。 c. 配置Hadoop环境变量:设置HADOOP_HOME环境变量,并将Hadoop的bin目录添加到PATH。 d. 配置Hadoop:编辑Hadoop配置文件,主要是修改`hadoop-env.sh`文件来设置JAVA_HOME,以及编辑`core-site.xml`、`hdfs-site.xml`和`mapred-site.xml`文件来配置核心服务、HDFS和MapReduce等。 e. 格式化文件系统:使用Hadoop命令`hdfs namenode -format`格式化HDFS文件系统。 f. 启动Hadoop服务:使用`start-dfs.sh`和`start-yarn.sh`脚本启动Hadoop的DFS和YARN服务。 2. Hadoop伪分布模式搭建: 伪分布模式是在一台机器上模拟一个完整的Hadoop集群环境,每个节点的角色(NameNode、DataNode、ResourceManager等)都在同一台机器上实现。 - 步骤与本地模式类似,但需要额外的配置: a. 在配置文件,将Hadoop的各个组件设置为在独立的进程启动。 b. 在`core-site.xml`设置fs.defaultFS为hdfs://localhost:9000。 c. 在`hdfs-site.xml`配置副本数量,通常设置为1。 d. 在`mapred-site.xml`设置MapReduce作业的历史服务器地址。 e. 在`yarn-site.xml`配置YARN的ResourceManager地址以及NodeManager和ResourceManager的HTTP地址。 f. 格式化文件系统并启动服务的步骤与本地模式相同。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值