什么是hdfs如何使用驱动程序访问hdfs

目录

什么是hdfs

主要特点包括:

架构组成:

应用场景:

如何使用驱动程序访问hdfs

准备工作环境:

启动 Hadoop 服务

可能遇到的问题:

ssh验证失败

验证Hadoop服务

对hdfs进行文件操作


什么是hdfs

HDFS(Hadoop Distributed File System)是Apache Hadoop项目中的一个关键组件,它是一个设计用来运行在商用硬件上的分布式文件系统。HDFS被设计为高容错性,并且适合部署在低成本硬件上,它提供了高吞吐量的数据访问和容量管理能力,适合大规模数据集的存储。

主要特点包括:

分布式存储:HDFS将数据分散存储在集群中的多台计算机上,每个文件被分成多个块(block),默认情况下,每个块大小为128MB(可以配置)。

高容错性:HDFS通过在集群中的多个节点上保存数据的多个副本来提供容错能力。如果某个节点或硬件发生故障,系统可以自动在其他节点上找到备份数据进行恢复,确保数据的可靠性和可用性。

适合大数据处理:HDFS被设计用来支持大数据集,具有高吞吐量的数据访问特性。它的设计考虑了数据的局部性原理,即将计算移动到数据附近,从而减少数据移动的开销,提高处理效率。

简单的一致性模型:HDFS采用了一种简单的一致性模型,适用于大多数应用程序的数据访问需求。

架构组成:

NameNode:负责管理文件系统的命名空间(namespace)以及客户端对文件的访问请求。它维护文件系统的目录树和文件到数据块的映射信息。

DataNode:负责实际存储数据块。每个数据节点(DataNode)负责存储和管理其上的数据块,并定期向NameNode报告它所存储的块信息。

应用场景:

HDFS广泛用于支持Apache Hadoop生态系统中的大数据处理应用,如MapReduce。它不仅适合存储大规模数据集,还能处理大数据的高吞吐量读写需求,是构建大数据分析和处理平台的重要基础之一。

如何使用驱动程序访问hdfs

准备工作环境:

安装和配置Hadoop:确保计算机或集群上安装了Hadoop,并且配置正确。这包括设置Hadoop的核心配置文件以及其他必要的配置。

1)、core-site.xml

这个文件包含了 Hadoop 核心的配置信息,如文件系统的默认名称(fs.defaultFS)、Hadoop 中各个服务的通信端口等。

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:8020</value>

</property>

<!-- 其他核心配置 -->

</configuration>

2)、hdfs-site.xml

这个文件包含了 HDFS (Hadoop 分布式文件系统) 的配置信息,如数据块的复制数量(dfs.replication)、数据节点的存储路径等。

<configuration>

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

<!-- 其他HDFS相关配置 -->

</configuration>

3)、mapred-site.xml

这个文件包含了 MapReduce 的配置信息,包括任务调度、作业跟踪等。

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

<!-- 其他MapReduce相关配置 -->

</configuration>

4)、yarn-site.xml

这个文件包含了 YARN (Yet Another Resource Negotiator) 的配置信息,如资源管理器地址、节点管理器的配置等。

<configuration>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<!-- 其他YARN相关配置 -->

</configuration>

启动 Hadoop 服务

完成配置文件的修改后,可以通过以下命令重新启动 Hadoop 服务:

sbin/start-all.sh

可能遇到的问题:

ssh验证失败

解决方法:

1,将公钥添加到授权列表:

mkdir -p ~/.ssh
touch ~/.ssh/authorized_keys
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

2,设置文件权限:

chmod 700 ~/.ssh

chmod 600 ~/.ssh/authorized_keys

3,SSH 配置问题

确保 SSH 服务器的 SSH 配置允许使用密钥进行身份验证

更改了sshd_config文件的配置

PubkeyAuthentication yes 是否启用公钥验证

4,测试 SSH 登录:

ssh 主机名@localhost

SSH配置正确且成功连接

5,启动hadoop,启动失败

配置Hadoop环境变量

编辑 Hadoop 的配置文件 hadoop-env.sh,一般在安装目录/etc/hadoop/hadoop-env.sh,hadoopuser改为自己的主机名

export HDFS_NAMENODE_USER=hadoopuser

export HDFS_DATANODE_USER=hadoopuser

export HDFS_SECONDARYNAMENODE_USER=hadoopuser

export YARN_RESOURCEMANAGER_USER=hadoopuser

export YARN_NODEMANAGER_USER=hadoopuser

再次启动提示ssh认证问题

6,清理之前的进程,打开防火墙。

启动成功

验证Hadoop服务

使用jps查看进程

访问 Hadoop Web 界面

对hdfs进行文件操作

列出文件和目录:hadoop fs -ls /

创建目录:hadoop fs -mkdir /new_test

移动文件或目录:hadoop fs -mv /test /new_test

上传文件到 HDFS:hadoop fs -put Desktop/testFile.png /new_test/test

hadoop fs -ls /new_test/test

从 HDFS 下载文件到本地:hadoop fs -get /new_test/test/testFile.png local/test

  • 10
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

达芬奇要当程序员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值