Apache HDFS(3)

9 篇文章 0 订阅 ¥9.90 ¥99.00
本文详细介绍了Apache HDFS(Hadoop Distributed File System),包括HDFS的基本概念、设计目标、重要特性,如master/slave架构、分块存储、副本机制等。此外,还涵盖了HDFS的基本操作,如Shell命令行客户端、文件限额操作,以及HDFS的Java API操作。文章深入剖析了HDFS的工作原理,如NameNode和DataNode的角色、数据的读写流程,并讨论了HDFS在实际应用中的操作和注意事项。
摘要由CSDN通过智能技术生成

目录

一、 大纲... 2

二、 HDFS入门... 4

1. HDFS基本概念... 4

1.1. HDFS介绍... 4

1.2. HDFS设计目标... 4

2. HDFS重要特性... 5

2.1. master/slave架构... 5

2.2. 分块存储... 5

2.3. 名字空间(NameSpace)... 5

2.4. Namenode元数据管理... 5

2.5. Datanode数据存储... 6

2.6. 副本机制... 6

2.7. 一次写入,多次读出... 6

3. HDFS基本操作... 7

3.1. Shell 命令行客户端... 7

3.2. Shell 命令选项... 8

3.3. Shell常用命令介绍... 9

4. HDFS文件限额操作... 12

4.1. 数量限额... 12

4.2. 空间大小限额... 12

4.3. 查看hdfs文件限额数量... 12

三、 HDFS基本原理... 13

1. NameNode概述... 13

2. DataNode概述... 14

3. HDFS的工作机制... 15

3.1. HDFS写数据流程... 16

3.2. HDFS读数据流程... 18

四、 HDFS的应用操作... 19

1. HDFS的JAVA API操作... 19

1.1. 搭建开发环境... 19

1.2. 构造客户端对象... 20

1.3. 示例代码... 22


 

二:HDFS入门

1、HDFS基本概念

1.1HDFS介绍

HDFS是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。

分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,他们为存储和处理超大规模数据提供所需的扩展能力。

1.2 HDFS 设计目标

1)硬件故障是常态,HDFS将有成百上千的服务器组成,每一个组成部分都有可能出现故障。因此故障的检测和自动快速恢复是HDFS的核心架构目标。

2)HDFS上的应用与一般的应用不同,他们主要是以流式读取数据。HDFS被设计成适合批量处理,而不是用户交互式的。相对于数据访问的反应时间,更注重数据访问的高吞吐量。

3

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值