第1关:HDFS伪分布式配置 100


任务描述

本关任务:HDFS伪分布式配置

相关知识

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

1.1 使用tar解压命令,将已经下载好的hadoop安装包进行解压。

执行过程及结果:

1.进入软件包目录 root@evassh-10644553:~# cd /data/workspace/myshixun/ root@evassh-10644553:/data/workspace/myshixun#

2.查看软件包(通过LS命令可以看到jdk这个安装包) root@evassh-10644553:/data/workspace/myshixun# ls hadoop-2.8.3.tar.gz root@evassh-10644553:/data/workspace/myshixun#

3.将软件包解压到/opt目录下(tar命令是解压命令,-C参数是指定解压位置) root@evassh-10644553:/data/workspace/myshixun# tar -zxf hadoop-2.7.1.tar.gz -C /opt root@evassh-10644553:/data/workspace/myshixun#

4.查看是否解压成功 root@evassh-10644553:/data/workspace/myshixun# ls /opt hadoop-2.8.3 root@evassh-10644553:/data/workspace/myshixun# 5.将目录切换到root用户的家目录 root@evassh-10644553:/data/workspace/myshixun# cd root@evassh-10644553:~#

1.2 配置环境变量

配置环境变量的目的是为了能够在全局使用hadoop或者hdfs等相关的命令。

export Hadoop_HOME=/opt/hadoop-2.7.1
export PATH=$PATH:$Hadoop_HOME/bin:$Hadoop_HOME/sbin

<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>

<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hdfs/namenode</value>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hdfs/datanode</value>
</property>

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hdfs://localhost:50090</value>
</property>

头哥Hadoop的第一通常是指在本地环境中搭建分布式模式。分布式模式是一种简化版的Hadoop集群环境,主要用于开发和测试阶段,因为它不需要启动完整的Hadoop守护进程(如NameNode、DataNode等),而是模拟这些角色在同一台机器上运行。 以下是搭建Hadoop分布式环境的基本步骤: 1. **下载Hadoop**:首先从Apache官网下载适合你操作系统的Hadoop版本,例如Hadoop 2.x或Hadoop 3.x。 2. **配置环境变量**:在系统环境变量中设置HADOOP_HOME指向Hadoop的安装目录,以及HADOOP_CONF_DIR指向conf文件夹。 3. **修改配置文件**: - core-site.xml: 配置基本参数,如fs.defaultFS,表示默认文件系统类型(通常是hdfs://localhost:9000)。 - hdfs-site.xml: 配置HDFS的相参数,如dfs.replication,表示数据块的复制数量。 4. **创建分布配置文件**:创建`local`目录并创建`hadoop-site.xml`,将`<configuration>`标签中的 `<property>` 元素中的 `name="hadoop.security.authentication"` 设置为 "simple",这允许在本地开发无需身份验证。 5. **启动Hadoop守护进程**:在命令行中执行 `start-dfs.sh` 和 `start-yarn.sh` 或者 `hadoop-daemon.sh start namenode` 和 `hadoop-daemon.sh start datanode` (对于Hadoop 2.x),在分布式模式下,这些命令会在本地运行。 6. **验证Hadoop服务**:使用`jps`命令检查是否启动了NameNode、DataNode和ResourceManager、NodeManager等服务。 7. **使用Hadoop工具**:现在你可以使用Hadoop的客户端工具如`hadoop fs`、`hdfs dfs`来进行操作,它们会连接到本地的Hadoop环境。 相问题: 1. 在Hadoop分布式模式中,NameNode和DataNode分别模拟的是什么? 2. 为什么要使用简单认证 (`hadoop.security.authentication="simple"`)? 3. 如何停止分布式模式下的Hadoop服务?
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值