大数据之Hadoop学习《一》——认识HDFS

本文介绍了Hadoop的分布式文件系统HDFS,包括其特点如存储超大文件、流式访问、一次写入多次读取等。详细阐述了HDFS的元数据管理,如Namenode、Datanode和Secondary Namenode的角色,以及副本存储策略。还涉及HDFS的读写文件流程和操作HDFS的命令行与Java API。
摘要由CSDN通过智能技术生成

title: 大数据之Hadoop学习<一>————认识HDFS
date: 2018-11-12 20:31:36
tags: Hadoop
categories: 大数据
toc: true
点击查看我的博客:Josonlee’s Blog


分布式文件系统 HDFS

分布式文件系统(Distributed FileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。

Hadoop有若干文件系统,HDFS只是其中一个,但HDFS是其重要组成部分。HDFS由java的org.apache.hadoop.fs.FileSystem定义,并实现了java.io.Closeable接口,继承了org.apache.hadoop.conf

我们可以通过命令行下 hadoop dfs -ls hdfs:/// 访问HDFS文件系统

HDFS特点

  • 存储超大文件
  • 流式文件访问
    • 高效访问模式:一次写入、多次访问
    • 只支持文件追加操作,不能修改
    • 追加操作要在hdfs-site.xml中的 dfs.support.append 设置为true才行
  • 普通商用硬件上即可运行(实际上普通PC还是不OK,那速度,这都是氪金玩家玩的,hh)
  • 不适合低时间延迟的数据访问
    • 以高时延为代价,获取高数据吞吐量
    • 响应时间秒级、毫秒级的数据访问,应该采用HBase
  • 多用户在写入文件时有锁机制,只支持单个写入者
  • 不适合存大量小文件

由于 Namenode 将文件系统的元数据存储在内存中,因此
HDFS所能存储的文件总数受限于Namenode的内存容量
根据经验,每个文件、目录和数据块的存储信息大约占150
字节,存储100万个文件大约需要300M内存

名称解释

  1. Cluster 集群
  2. Rack 机架
  3. Client 客户机
  4. Namenode 名称节点
  5. Datanode 数据节点
  6. Secondary NameNode 辅助(第二)名称节点
  7. Metadata 元数据
  8. Block 块
  • 整体结构

在这里插入图片描述

  • Namenode和Secondary Namenode

Namenode是HD

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值