Hadoop分布式文件系统:HDFS(拓展)

座右铭:历史总是要前进的,历史从来不等待一切犹豫者;只有与历史同步发,与时代共命运的人,才能赢得光明的未来!

文章介绍:

本文是进入“大数据”的一个入口,需要掌握HDFS的基本原理,知道为什么它可以存储海量数据,知道“百度网盘”本身是什么?能否自己也实现一个网盘。让大家一开始就进入大数据实战阶段。

特此说明:内容适合人群

  1. 掌握Linux操作系统命令及shell编程
  2. 掌握zookeeper的原理及使用

 一、Hadoop概述

在学习HDFS之前,我们先来了解一下Hadoop的相关知识。

  1. 1 Hadoop是什么?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构;

Hadoop以一种可靠、高效、可伸缩的方式对大量数据存储和分析计算;

用户可以在不了解分布式底层细节的情况下,开发分布式程序。

Hadoop生态圈如下:

 二、HDFS概述

2.1 HDFS介绍

  • 产生背景:随着数据量越来越大,在一台电脑上存不下所有的数据,那么就分配到更多的电脑组成的集群上,但是不方便管理和维护,于是就需要一种可以在集群中来管理多台机器上文件的系统,即分布式文件系统。HDFS便是分布式文件系统 中的一员。
  • 定义:HDFS(Hadoop Distributed System):分布式文件系统,用于存储文件,通过目录树来定位文件;构建在分布式集群上,集群中的服务器有各自的角色。
  • 使用场景:适合一次写入,多次读取的场景。适合用来做大数据分析。 
  • HDFS优点:
  1. 可构建在廉价的机器上
  2. 高容错

    1)数据自动保存多个副本,通过增加副本的形式,提高容错性;

    2)当一个副本数据块丢失时,通过自动恢复保持副本数量。

  3. 适合存储大量数据

    1)HDFS上的一个典型文件大小一般在G字节至T字节,MB GB TB PB ZB;

    2)HDFS支持大文件存储;

    3)单一HDFS实例能支撑数以千万计的文件。

  4. 单一的一致性模型

    1)HDFS应用遵循“一次写入多次读取”的文件访问模型;

    2)HDFS简化了数据一致性问题,并且是高吞吐量的数据访问成为可能;

    3)Map/Reduce应用或者网络爬虫应用都非常适合这个模型。

  •  HDFS缺点:
  1. 不适合低延迟的数据访问;
  2. 无法高效地对大量小文件进行存储;
  3. 不支持对同一文件的并发写入;
  4. 不支持文件的随机修改。

才疏学浅,走笔至此,下次继续更新!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值