hdfs总结

本文深入探讨了HDFS(分布式文件系统)的特性,包括其一次写入、多次读出的设计,以及在处理大数据时的优势和处理小文件及低延迟数据的局限。介绍了HDFS的组成部分,如文件块、副本策略、HDFS命令和数据流上传过程。此外,还详细阐述了副本节点的选择、文件读取机制、NameNode和Secondary NameNode的工作原理,以及DataNode的功能和安全模式。同时涵盖了集群管理和数据完整性方面的内容。
摘要由CSDN通过智能技术生成

HDFS介绍

  1. HDFS就是分布式文件管理系统,适合一次写入,多次读出,不支持修改

  2. 优缺点:(优)有副本高容错,处理大数据;(缺)不适合处理小文件,不合适低延迟处理数据

  3. HDFS组成

    NameNode(nn) 管理元数据,处理客户端请求
    DataNode(dn) 储存实际数据块,执行客户端操作
    SecondaryNameNode 辅助nn,定期完成checkpoint操作,不可作为热备
  4. HDFS文件块(block)默认情况下为128M,传输时间1%为寻址时间,nn寻址时间为10ms,100M/s为一般速度。如果block太小会增加寻址时间,如果太大会增加传输时间,HDFS块的大小取决于传输磁盘效率。

  5. HDFS命令

    start-dfs.sh/stop-yarn.sh 启动hdfs/关闭yarn
    hadoop fs (-moveFromLocal/-put/-appendToFile/-copyFromLocal/ )本地文件 集群目录路径 本地剪切至hdfs/本地复制/追加一个文件到已存在文件末尾/与put相同
    hadoop fs (-copyToLocal/-get)集群文件 本地路径 从hdfs下载到本地
    hadoop fs -getmerge 集群目录路径 本地文件名 合并一个目录下的多个文件到一个文件
    hadoop fs -setrep n 文件路径 设定n个文件副本
  6. Windows下HDFS客户端

    • 配置环境变量

    • 创建maven工程

    • 配置maven变量

      <dependencies>
          <dependency>
              <groupId>junit</groupId>
              <artifactId>junit</artifactId>
              <version>4.12</version>
          </dependency><
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值