Hadoop HDFS

转载 2015年11月17日 17:02:56

Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。

HDFS拥有超大型的数据量,并提供更轻松地访问。为了存储这些庞大的数据,这些文件都存储在多台机器。这些文件都存储以冗余的方式来拯救系统免受可能的数据损失,在发生故障时。HDFS也使得可用于并行处理的应用程序。

 

HDFS的特点

 

  • 它适用于在分布式存储和处理。
  • Hadoop提供的命令接口与HDFS进行交互。
  • 名称节点和数据节点的帮助用户内置的服务器能够轻松地检查集群的状态。
  • 流式访问文件系统数据。
  • HDFS提供了文件的权限和验证。

 

HDFS架构

下面给出是Hadoop的文件系统的体系结构。

 

 

 

HDFS遵循主从架构,它具有以下元素。

 

名称节点 - Namenode

名称节点是包含GNU/Linux操作系统和软件名称节点的普通硬件。它是一个可以在商品硬件上运行的软件。具有名称节点系统作为主服务器,它执行以下任务:

管理文件系统命名空间。

规范客户端对文件的访问。

它也执行文件系统操作,如重命名,关闭和打开的文件和目录。

 

数据节点 - Datanode

 

Datanode具有GNU/Linux操作系统和软件Datanode的普通硬件。对于集群中的每个节点(普通硬件/系统),有一个数据节点。这些节点管理数据存储在它们的系统。

  • 数据节点上的文件系统执行的读写操作,根据客户的请求。
  • 还根据名称节点的指令执行操作,如块的创建,删除和复制。

 

一般用户数据存储在HDFS文件。在一个文件系统中的文件将被划分为一个或多个段和/或存储在个人数据的节点。这些文件段被称为块。换句话说,数据的HDFS可以读取或写入的最小量被称为一个块。缺省的块大小为64MB,但它可以增加按需要在HDFS配置来改变。

 

HDFS的目标

故障检测和恢复:由于HDFS包括大量的普通硬件,部件故障频繁。因此HDFS应该具有快速和自动故障检测和恢复机制。

巨大的数据集:HDFS有数百个集群节点来管理其庞大的数据集的应用程序。

数据硬件:请求的任务,当计算发生不久的数据可以高效地完成。涉及巨大的数据集特别是它减少了网络通信量,并增加了吞吐量。

hadoop及hdfs一些初步的概念

hadoop安装成功后,对hadoop的很多概念还是一知半解,通过在线文档及《hadoop权威指南》可以有个初步的了解。 1. hadoop解决了什么问题? 对大量的数据进行存储与分析。 ...
  • viewcode
  • viewcode
  • 2013年05月28日 18:06
  • 6266

一篇很好的Hadoop入门文章:Hadoop是什么、核心HDFS与MapReduce的原理

Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。 《Hadoop基础教程》是我...
  • zhangliangzi
  • zhangliangzi
  • 2016年07月30日 10:12
  • 3661

Hadoop之——HDFS操作实例

本文通过两种方式来讲解hadoop中对HDFS文件系统的操作,第一种方式是命令行,第二种方式是通过java代码来实现。       一、命令行方式:hadoop fs xxx          had...
  • l1028386804
  • l1028386804
  • 2015年05月22日 21:35
  • 6044

Hadoop学习笔记-Hadoop HDFS环境搭建

Hadoop HDFS环境配置
  • u012342408
  • u012342408
  • 2016年01月18日 22:14
  • 10693

hadoop入门级总结一:HDFS

虽然hadoop经历了多年的发展,作为技术人员都或多或少的使用过或者了解过。这里还是做一个简单的总结,主要原因是之前主要是做hadoop的开发,对hadoop的运维知之甚少,但真正的接触到hadoop...
  • zbc1090549839
  • zbc1090549839
  • 2016年07月07日 21:29
  • 2568

Hadoop 配置本篇主要就是配置HDFS和YARN

配置HDFS和YARN之前要对服务器或者虚拟机安装jdk、maven、findbugs、protobuf等,这些就不一一赘述了,一查一大堆。 首先要有编译好的hadoop的jar包,解压到自己的目录...
  • Just_for_fun_208
  • Just_for_fun_208
  • 2016年04月28日 09:57
  • 918

基于Hadoop和Openstack云存储的研究(HDFS和Swift对比)

前几天在知网上翻了好多论文,昨天开始一篇一篇地看,由于有的论文时间比较早,甚至是3年前的,所以很多部分只是对当前的技术有一个展望和综述,不过这样对我这种初学者也有好处,今天看得这篇文章是李金亮,翟永刚...
  • lanceyang1992
  • lanceyang1992
  • 2015年06月11日 13:15
  • 1524

Hadoop中的几种文件格式

Hadoop中的文件格式大致上分为面向行和面向列两类: 面向行:同一行的数据存储在一起,即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式,如果只需要访问行...
  • bingduanlbd
  • bingduanlbd
  • 2016年08月01日 19:50
  • 6141

Hadoop数据目录迁移

Hadoop数据目录迁移@(Hadoop)随着数据的不断导入和增大,原本集群部署的目录磁盘空间不足了,所以要把hadoop存储数据的位置迁移到另外一个巨大的磁盘上,另外的一个用意是将数据和程序分离开,...
  • qq1010885678
  • qq1010885678
  • 2016年01月13日 21:43
  • 2945

Hadoop-2.4.1源码分析--HDFS读取文件

在上一篇文章《Hadoop源码分析--FileSystem的创建过程》中(阅读地址-----------------------------------------------------http:/...
  • u010010428
  • u010010428
  • 2016年05月12日 18:19
  • 1643
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop HDFS
举报原因:
原因补充:

(最多只允许输入30个字)