hdfs总结

最新推荐文章于 2023-05-29 15:01:58 发布

蛇皮怪是我

最新推荐文章于 2023-05-29 15:01:58 发布

阅读量75

点赞数

分类专栏： hdfs知识点总结文章标签：大数据 hdfs hadoop 分布式 java

本文链接：https://blog.csdn.net/qq_34930765/article/details/109134805

版权

本文深入探讨了HDFS（分布式文件系统）的特性，包括其一次写入、多次读出的设计，以及在处理大数据时的优势和处理小文件及低延迟数据的局限。介绍了HDFS的组成部分，如文件块、副本策略、HDFS命令和数据流上传过程。此外，还详细阐述了副本节点的选择、文件读取机制、NameNode和Secondary NameNode的工作原理，以及DataNode的功能和安全模式。同时涵盖了集群管理和数据完整性方面的内容。

摘要由CSDN通过智能技术生成

HDFS介绍

HDFS就是分布式文件管理系统，适合一次写入，多次读出，不支持修改
优缺点：（优）有副本高容错，处理大数据；（缺）不适合处理小文件，不合适低延迟处理数据

HDFS组成

NameNode（nn）	管理元数据，处理客户端请求
DataNode（dn）	储存实际数据块，执行客户端操作
SecondaryNameNode	辅助nn，定期完成checkpoint操作，不可作为热备

HDFS文件块（block）默认情况下为128M，传输时间1%为寻址时间，nn寻址时间为10ms，100M/s为一般速度。如果block太小会增加寻址时间，如果太大会增加传输时间，HDFS块的大小取决于传输磁盘效率。

HDFS命令

start-dfs.sh/stop-yarn.sh	启动hdfs/关闭yarn
hadoop fs （-moveFromLocal/-put/-appendToFile/-copyFromLocal/ ）本地文件集群目录路径	本地剪切至hdfs/本地复制/追加一个文件到已存在文件末尾/与put相同
hadoop fs （-copyToLocal/-get）集群文件本地路径	从hdfs下载到本地
hadoop fs -getmerge 集群目录路径本地文件名	合并一个目录下的多个文件到一个文件
hadoop fs -setrep n 文件路径	设定n个文件副本

Windows下HDFS客户端

配置环境变量
创建maven工程

配置maven变量

<dependencies>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.12</version>
    </dependency><