分布式文件系统HDFS—技术小结

本文介绍了HDFS(Hadoop Distributed File System)的基本概念、优缺点、架构原理,包括副本存放策略、大文件写入、不适合存储小文件的原因。详细讲解了HDFS的写入和读取流程、副本放置策略、可靠性策略,并探讨了HDFS的优化技巧,如文件管理、小文件问题解决方案等。
摘要由CSDN通过智能技术生成

将笔记中HDFS中部分学习总结记录于此,对HDFS进行粗浅的介绍。

提出问题:1.HDFS副本存放策略;2.大文件写入策略(切分blocks,三份备份);3.HDFS不适合存储小文件,为什么?(元数据存储在内存中,过多小文件带来大量元数据,导致namenode负载过大)

建议读GFS原版论文,多读读。

概述:

  1. 非常易于扩展
  2. 运行在大量廉价主机上,提供容错机制,适合网盘业务
  3. 为大量用户提供性能不错的文件存取业务

优点:

  1. 高容错性,多个副本保存数据
  2. 适合批处理,移动计算而非移动数据,数据位置暴露给计算框架
  3. 适合大数据存储处理,上万节点
  4. 流式文件访问,一次写入,多次读取。保证一致性,不可修改,若想修改只能去Yarn
  1. 廉价主机集群

缺点:

  1. 不适合低延迟,hadoop框架核心是用延迟换取IO吞吐率,毫秒级延迟做不到
  2. 不适合小文件存取,占用namenode大量内存,小文件会导致寻道时间超过读取时间
  1. 不支持并发写入、随机修改,一个文件只能有一个写入操作者,仅支持append追加,不能改已有数据,

只能把现有的追加后删除原有文件。真实环境中,此类应用场景占据80%,因此用途较广

架构和原理:

目前标准配置:3TB×12

考虑问题:文件备份,负

Hadoop分布式环境搭建实验小结如下: 为了搭建一个Hadoop分布式环境,我们需要进行以下步骤: 1. 安装Java:首先,我们需要在所有节点上安装Java开发工具包(JDK),因为Hadoop是使用Java编写的。确保所有节点上的Java版本一致。 2. 配置SSH免密登录:Hadoop集群中的不同节点之间需要进行通信和数据传输,为了方便操作,我们需要配置SSH免密登录,即使得各节点之间可以无需密码即可相互登录。 3. 下载和解压Hadoop:从官方网站下载Hadoop的二进制版本,并解压到每个节点的相同目录中。确保解压路径和文件权限设置正确。 4. 配置Hadoop环境变量:在每个节点上,我们需要设置Hadoop的环境变量,包括JAVA_HOME、HADOOP_HOME、PATH等。这样才能方便地使用Hadoop命令。 5. 配置Hadoop的核心配置文件:在每个节点上,我们需要修改Hadoop的核心配置文件,其中包括hadoop-env.sh、core-site.xml、hdfs-site.xml等文件。这些配置文件定义了Hadoop的基本运行参数,如文件系统类型、数据存储位置等。 6. 配置Hadoop集群的主从节点:在Hadoop集群中,有一个或多个主节点(NameNode)和多个从节点(DataNode)。我们需要在核心配置文件中指定哪些节点是主节点,哪些节点是从节点。 7. 格式化Hadoop文件系统:在主节点上,我们需要初始化Hadoop的文件系统,这将创建必要的目录结构和文件。这一步只需要执行一次。 8. 启动Hadoop集群:最后,我们可以启动Hadoop集群,在各个节点上运行Hadoop的不同组件,如NameNode、DataNode、ResourceManager、NodeManager等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值