第三章大数据存储技术HDFS

一、概述

1.1 分布式文件系统(DFS)的概念和作用

  • 一台计算机的存储容量有限,分布式文件系统将文件分布存储在网络中的多个计算机节点上的文件系统,设计多台计算机。

1.2 HDFS概述

  • 是Hadoop的核心组件。
  • 运行于通用x86服务器之上

设计理念:

  1. 硬件失效:HDFS被设计成在某个节点发生故障时,可以及时由其他正常的节点继续向用户提供服务。
  2. 流式数据访问:HDFS的上层应用更多用于批量处理,而不是用户的交互式使用,采用流式数据访问提高数据吞吐率。
  3. 超大文件:运行在HDFS的应用程序通常需要处理较大的数据集,典型从GB到TB级别。
  4. 简化的数据一致性模型:HDFS采用一次写入多次读取的数据读写模型,文件一旦写入完成,只支持尾部追加,不允许在他位置上修改。
  5. 多硬件平台支持:HDFS可方便的运行在不用的平台上。
  6. 移动的计算能力比移动的数据更加划算:计算和存储采用就近原则,应用程序在其运行的数据附近执行,不将数据移动到其他节点进行计算。

HDFS不适合的场景:

  • 低延迟的访问需求:适合用HBase
  • 大量的小文件
  • 多用户写入,任意修改文件。

二、HDFS的相关概念

2.1 块

  • 每个磁盘都有固定的数据块大小,数据块是对磁盘进行读写操作的最小单位,一般为512个字节。
  • 在单个磁盘上构建的文件系统也有自己的数据块大小,一般为几千字节为磁盘数据块的整数倍
  • HDFS默认块大小128MB,HDFS上的文件会被分为若干个块进行存储,小于一个块的数据不会占整个块的存储空间。
  • 每个块以冗余副本的形式存储在多个节点上,发生故障时可以防止丢失。

2.2 NameNode

  • 是HDFS集群的管理节点。
  • namenode上有两个重要文件:EditLog和FSImage. EditLog用于记录对文件的操作,FSImage用于维护整个系统的命名空间包括数据块到文件的映射和文件的属性。
  • 启动时不对外提供写服务。

2.3 Secondary NameNode

  • 当运行namenode的服务器发生故障,文件系统上所有文件将会丢失,无法仅根据datanode的块来重建文件Hadoop提供两种机制:
  1. 备份文件系统元数据。
  2. 运行Secondary NameNode,Secondary NameNode不是NameNode的备份,它的作用是定期将EditLog合并到FSImage,以防止EditLog过大。
  • Hadoop2.x开始,HDFS推出了两个新的节点,CheckpointNode和BackupNode。CheckpointNode和Secondary NameNode作用一致,BackupNode是NameNode的完全备份。

2.4 DataNode

  • 是HDFS的数据节点。
  • 根据系统的需要存储并检索数据块。
  • 定期向NameNode发送他们所存储的块列表和心跳信息。

三、HDFS体系架构与原理

3.1 HDFS体系结构

  • Master/Slave架构(NameNode/DataNode)
  • 一个HDFS集群包括一个NameNode和多个DataNode
  • NameNode对DataNode进行调度和响应客户端的请求。
  • DataNode在NameNode的调度下进行数据块的创建、删除和复制,处理客户端的读写请求。

3.2 HDFS高可用机制

  1. NameNode的高可用:当NameNode发生故障无法提供服务时,备用NameNode可以及时地接管他的任务并对客户端提供服务。备用NameNode同时也会合并EditLog到FSImage,创建Checkpoint,不需要运行Secondary NameNode或CheckpointNode和BackupNode。
  2. 故障切换与规避:
  • 共享存储的规避:同一时刻只允许一个NameNode编辑EditLog
  • DataNode的规避:每个NameNode改变状态是会向DataNode发送自己的状态和一个序列号。
  • 客户端的规避:客户端通过配置文件实现故障切换的控制。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
第3章 大数据存储技术 大数据技术及应用教学课件第3章-大数据存储技术全文共34页,当前为第1页。 数据库 01 02 03 主要内容 分布式文件系统 存储技术的发展 数据仓库 04 大数据技术及应用教学课件第3章-大数据存储技术全文共34页,当前为第2页。 3.1 存储技术的发展 数据存储介质分为磁带、磁盘和光盘三大类,由三种介质分别构成磁带库、磁盘阵列、光盘阵列三种主要存储设备,三种存储介质各有特点。 磁盘设备由于存取速度快、数据查询方便、简单易用、安全的磁盘阵列技术等占据一级存储市场的主要份额 磁带设备以技术成熟、价格低廉等优势占据了二级存储市场的重要地位 光盘设备同时具有二者特点 磁盘阵列(Redundant Arrays of Independent Disks,RAID),它由很多价格便宜的磁盘组成巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。 大数据技术及应用教学课件第3章-大数据存储技术全文共34页,当前为第3页。 3.1.1 传统存储技术 直连式存储(Direct Attached Storage,DAS)是最为常见的存储形式之一。 DAS存储是通过服务器内部直接连接磁盘组,或者通过外接线连接磁盘阵列。这种方式通常需要通过硬件RAID卡或者软RAID的方式实现磁盘的冗余保护,防止由于磁盘故障导致整个存储系统的不可用而丢失数据。 大数据技术及应用教学课件第3章-大数据存储技术全文共34页,当前为第4页。 3.1.1 传统存储技术 网络储存设备(Network Attached Storage,NAS),是通过以太网方式接入并进行访问的存储形式。 DAS存储是通过服务器内部直接连接磁盘组,或者通过外接线连接磁盘阵列。这种方式通常需要通过硬件RAID卡或者软RAID的方式实现磁盘的冗余保护,防止由于磁盘故障导致整个存储系统的不可用而丢失数据。 NAS存储设备可以直接连接在以太网中,之后在该网络域内具有不同类型操作系统的主机都可以实现对该设备的访问。使用者可以通过某种方式(例如linux下的mount命令)将存储服务挂载到本地进行访问,在本地呈现的就是一个文件目录树。我们所熟悉的NFS(Network File System)其实就是一种NAS存储形式,NFS服务器就是NAS存储设备。我们可以通过开源软件搭建该种类型的存储设备,当然市面上也有很多成熟的产品。 大数据技术及应用教学课件第3章-大数据存储技术全文共34页,当前为第5页。 分布式存储架构由三个部分组成:客户端、元数据服务器和数据服务器。客户端负责发送读写请求,缓存文件元数据和文件数据。元数据服务器负责管理元数据和处理客户端的请求,是整个系统的核心组件。数据服务器负责存放文件数据,保证数据的可用性和完整性。 3.1.2 分布式存储 大数据技术及应用教学课件第3章-大数据存储技术全文共34页,当前为第6页。 Hadoop Distributed File System,简称HDFS,是Hadoop架构下的一个分布式文件系统。HDFS是Hadoop的一个核心模块,有着高容错性、高吞吐量等优点,并且设计用来部署在低廉的硬件上,能够提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。 3.1.2 分布式存储 大数据技术及应用教学课件第3章-大数据存储技术全文共34页,当前为第7页。 3.2.1 HDFS相关概念 1.块(block) 所有文件都是以块的形式存储在磁盘中,文件系统每次只能操作磁盘块大小的整数倍数据,HDFS中一般默认块大小为64MB。 2.元数据 元数据信息包括名称空间、文件到文件块的映射、文件块到数据节点的映射三个部分。 3.名称节点(NameNode) NameNode是HDFS系统中的管理者,负责管理文件系统的命名空间,记录了每个文件中各个块所在的数据节点的位置信息,维护文件系统的文件树及所有的文件和目录的元数据。这些信息以两种数据结构存储在本地文件系统中,即FsImage和EditLog。 大数据技术及应用教学课件第3章-大数据存储技术全文共34页,当前为第8页。 3.2.1 HDFS相关概念 4.辅助名称节点(Secondary NameNode) 是NameNode发生故障时的备用节点,主要功能是进行数据恢复,它的职责是合并NameNode的EditLog到FsImage文件中。 Secondary NameNode工作原理 大数据技术及应用教学课件第3章-大数据存储技术全文共34页,当前为第9页。 3.2.1 HDFS相关概念 5.数据节点(DataNode) DataNode根据需要存储并检索数据块,受客户端或NameNode调度,并定期向NameNode发送它们所存储的块的列表。同时,它会通过
⼤数据--第⼀章⼤数据概述笔记分享 ⼤数据--第⼀章 ⼤数据概述笔记分享 ⼀、⼤数据时代 1.三次信息化浪潮 信息化浪潮 信息化浪潮 发⽣时间 发⽣时间 标志 标志 解决问题 解决问题 代表企业 代表企业 第⼀次浪潮 1980年前后 个⼈计算机 信息处理 Intel、AMD、IBM、苹果、微软、戴尔、惠普等 第⼆次浪潮 1995年前后 互联⽹ 信息传输 雅虎、⾕歌、阿⾥巴巴、百度、腾讯等 第三次浪潮 2010年前后 物联⽹、云计算、⼤数据 信息爆炸 将涌现出⼀批新的市场标杆企业 2.第三次信息化浪潮的⽀持 技术⽀撑 § 存储存储设备容量不断增加 § 计算:CPU处理能⼒⼤幅度提升 § ⽹络:⽹络带宽不断增加 数据产⽣⽅式发⽣变化 3.数据产⽣⽅式的变⾰促成⼤数据时代的来临 运营式系统阶段——数据产⽣⽅式是被动的 ⽤户原创内容阶段——数据产⽣⽅式是主动的 感知式系统阶段——⼤数据的产⽣(物联⽹、云计算和⼤数据) 物联⽹底层是感知层,如:摄像头、传感器、⼀卡通 4.⼤数据发展的三个阶段 萌芽期 成熟期 ⼤规模应⽤期 ⼆、⼤数据概念 4V特性: § 数据量⼤(Volume) § 处理速度快(Velocity) § 数据类型繁多(Variety) § 价值密度低(value) 三、⼤数据的影响 1、图灵获奖者、著名数据库专家Jim Gray博⼠观察并总结⼈类⾃古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式。 2、在思维⽅式⽅⾯,⼤数据完全颠覆了传统的思维⽅式: § 全样⽽⾮抽象 § 效率⽽⾮精确 § 相关⽽⾮因果 四、⼤数据的应⽤ 1、⼤数据⽆处不在 2、典型的⼤数据应⽤实例 1.影视剧拍摄 2.⾕歌流感趋势 五、⼤数据的关键技术 1、⼤数据的关键技术 2、⼤数据的两⼤核⼼技术 数据的存储和数据的处理 3、两⼤核⼼技术 数据的存储 数据的存储 分布式存储 分布式存储 GFS\HDFS 、Big Table\Hbase、NoSQL、NewSQL GFS\HDFS 、Big Table\Hbase、NoSQL、NewSQL 数据的处理 分布式处理 MapReduce 六、⼤数据计算模式 1、MapReuce是基于磁盘的离线计算,需要进⾏批处理,不能满⾜实时需求,它是⼀批⼀批处理的,不能实现秒级响应。Spark是基于内存的迭代计算,Spark 处理速度⽐MapReuce快。 2、批处理是对数据批量处理,流计算是实时计算。 3、图计算针对⼤规模图结构数据的处理。 4、查询分析计算是⼤规模数据的存储管理和查询分析。 七、⼤数据与云计算、物联⽹的关系 1、⼤数据、云计算和物联⽹代表了IT领域最新的计算发展趋势,三者相辅相成,既有联系⼜有区别。 2、云计算 云计算概念:云计算实现了通过⽹络与服务的⽅式为⽤户提供可伸缩的、廉价的分布式计算能⼒,⽤户只需要在具备⽹络接⼊条件的地⽅,就可以随时随地 获得所需的各种廉价的IT资源。 云计算关键技术:虚拟化、分布式存储分布式计算、多租户等。 云计算数据中⼼是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应⽤提供运⾏⽀撑环境。 3、物联⽹ 物联⽹是物物相连的互联⽹,是互联⽹的延伸,它利⽤局部⽹络或互联⽹等通信技术把传感器、控制器、机器、⼈员和物等通过新的⽅式联在⼀起,形成⼈ 与物、物与物相联,实现信息化和远程管理控制。 应⽤层:包括很多应⽤,⽐如智能交通 处理层:包括各种数据处理的应⽤,将数据处理好后传给上⼀层 ⽹络层:在物联⽹中起到数据传输的作⽤ 感知层:物联⽹的最底层 物联⽹应⽤举例——智能交通 物联⽹关键技术 物联⽹中的关键技术包括识别和感知技术(⼆维码、RFID芯⽚、传感器等)、⽹络与通信技术、数据挖掘与融合技术等。 物联⽹应⽤ 物联⽹已经⼴泛应⽤于智能交通、智慧医疗、智能家居等领域。 4、云计算、⼤数据、物联⽹三者的关系,既有区别⼜有联系

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值