无法从套接字读取更多的数据 oracle_万丈高楼平地起——大数据配置管理之HDFS(上)...

本文介绍了Hadoop的核心框架HDFS的设计思想,包括高冗余保证数据安全、移动计算优于移动数据等原则。此外,详细阐述了HDFS的体系结构,包括NameNode和DataNode的角色,以及数据的存储、复制和访问机制。文章还讨论了HDFS与传统文件系统的区别,强调其在大数据存储和计算中的优势。最后,探讨了HDFS的高可用性,包括数据的水平复制和集群配置方法。
摘要由CSDN通过智能技术生成

众所周知,Hadoop是目前最流行的大数据计算平台,它由众多的框架(或者称为模块,组件)组成,共同完成大数据的计算任务。实际上,大数据需要解决的两大核心问题是数据的存储和数据的计算。Hadoop对数据的存储采用的是分布式方式,对数据的计算也采用分布式方式。具体来说,Hadoop包含以下核心框架:

  • HDFS:实现数据的分布式存储

  • MapReduce:实现数据的分布式计算

  • Yarn:对计算任务进行资源分配和任务调度

这就说明,只要安装和配置了Hadoop,以上三个框架就能使用了。MapReduce只实现了最基本的对数据的离线计算,而Hadoop这个开放式计算平台是不断发展的,更多的更先进的计算框架不断加入,如Spark能够对数据进行实时计算,而Storm能够对数据进行实时的流式计算。

一、HDFS的设计思想

HDFS即Hadoop Distributed File System,Hadoop分布式文件系统,它来源于谷歌公司的一篇学术论文“The Google File System”,这篇论文中介绍的思想被引入Hadoop,就是现在的HDFS,它是Hadoop的基础架构。Hadoop的配置管理就是从HDFS开始的。

HDFS作为一种文件系统,用于存储数据,它与传统文件系统既有相同的特点,也有巨大的差别。由于HDFS对于硬件没有特别的要求,普通的PC机和普通硬盘即可,所以带来一个不可避免的问题:如果硬件出现故障,数据就会丢失。HDFS的设计基于以下思想:

  • 硬件故障的发生是常态,而不是偶然事件。HDFS采用高冗余的方式保证数据的安全,任何数据在HDFS中都有多个拷贝,它们分布在不同的计算机系统中

  • 移动计算的成本低于移动数据。数据存储在什么地方,对数据的计算就在什么地方进行,应用程序在本地就能找到数据,而不需要通过网络获取数据

  • 支持大文件,文件大小可达到TB、PB级,这样的文件在任何单个硬盘中都无法存储。HDFS将文件分割为数据块,写入不同的DataNode中

  • 数据的存储空间是可以扩展的。虽然单个硬盘的空间是有限的,但HDFS把多个计算机系统中的硬盘设备整合在一起,从而产生一个非常大的、可以不断扩展的存储空间

  • 数据的访问方式是:一次写入,多次读取

  • 应用程序对数据的访问应该是批量的流式读访问,而不是随机的读写访问

由此可见,HDFS的功能是为Hadoop中的分布式应用程序提供分布式数据存储。一方面,HDFS存储原始数据,即需要被处理的数据;一方面,存储计算的中间结果;另一方面,存储最终的计算结果。分布式应用程序在多个计算机系统中同时运行,读取HDFS中位于本地硬盘上的数据,对它们进行处理,然后把处理结果写入HDFS,从而实现数据的并行计算。

通过上面的描述可以知道,大数据是数据的集合,而数据库也是数据的集合,那么它们之间有什么区别呢?二者的区别与联系有以下几点:

  • 传统数据库的数据量一般为GB、TB级,而大数据的数据量为TB、PB甚至更多

  • 传统数据库的访问侧重于OLTP(联机事务处理),而大数据的访问侧重于批量处理

  • 传统数据库的数据频繁变化,而大数据则是一次写入、多次读取

  • 传统数据库中存储联机数据,而大数据则是历史数据。实际上,大数据的来源一般都是关系型数据库,如MySQL数据库或者Oracle数据库

  • 传统数据库对数据采用集中存储、集中处理的方式,而大数据则采用分布式存储、分布式计算的方式

  • 传统数据库对数据的处理是实时的,而大数据的处理有相当的延迟

  • 传统数据库支持事务,而大数据不支持事务

二、HDFS的体系结构

HDFS的体系结构如图1所示。HDFS包含一个NameNode,一个或多个DataNode。这里所说的node,一方面指的是操作系统中的进程,另一方面指的是运行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值