分布式文件系统hdfs详细介绍

本文详细介绍了分布式文件系统HDFS,包括其起源、架构演变、元数据管理,以及文件的写入与读取过程。重点讨论了HDFS的元数据在1.x和2.x架构中的不同管理方式,以及NameNode的角色。同时,概述了HDFS的副本机制、Block存储和权限验证。最后,讲解了如何通过Java API操作HDFS。
摘要由CSDN通过智能技术生成

课程回顾:
1、hadoop的发展历史简介
2、hadoop的历史版本
3、hadoop的三大发行公司 apache 开源版本 CDH版本 所有软件的兼容性,软件的升级都做好了
元数据:描述数据的数据
4、hadoop1.x与2.x的架构模型区别
1.x架构:
HDFS:
namenode:主节点,管理元数据信息,处理用户的请求
secondarynamenode:辅助namenode管理元数据
datanode:从节点,主要用于存储数据
MapReduce:
JobTracker:主节点,接收用户请求,分配任务
taskTracker:从节点,主要用于执行任务
2.x架构:
HDFS:分布式文件存储系统
namenode:主节点,管理元数据信息,处理用户的请求
secondaryNamenode:辅助namenode管理元数据信息
datanode:从节点,主要用于存储数据
如果namenode是ha的模式
journalnode:同步namenode之间的元数据信息
zkfc:zkFailoverController 守护进程,监看namenode的健康状况
yarn:资源调度系统
resourceManager:主节点,接收用户请求,分配资源
nodemanager:执行任务的
3、apache版本的hadoop的三种环境的搭建
standAlone:单机版的hadoop运行环境
伪分布式:所有的主节点都在同一台机器上面,从节点分开
完全分布式:把所有的主节点,完全分开到不同的机器上面去

4、CDH版本的hadoop的重新编译
为什么要重新编译cdh版本的hadoop 因为cdh版本的lib/native本地库没有任何C程序,重新编译为支持我们的本地库的C程序,以及snappy的压缩
重新编译:
5、cdh版本的zk的环境部署
6、cdh版本的伪分布式的环境搭建
7、hadoop集群的使用体验
hdfs的命令行的使用 熟练使用
8、hadoop的基准测试

分布式文件系统hdfs

1.详细介绍
2.hdfs的架构图
3.hdfs的元数据信息的管理
4.文件的写入与读取过程
5.hdfs的javaAPI操作

分布式文件计算系统mapreduce的入门
1.写一个wordcount单词计数

1.分布式文件系统设计思路以及文件系统的基本介绍
084736

hadoop的文件系统
文件系统:是一个顶层的抽象,具体的实现,需要取决于你自己获取的实例
我们可以通过文件系统获取本地文件系统,操作linux磁盘上面的文件;也可以获取分布式文件系统,操作hdfs上面的文件
ftp://ftp文件系统 可以做文件的上传和下载
webHdfs:浏览器操作系统,可以允许我们通过浏览器上传、下载、修改、hdfs上面的文件
hdfs:分布式文件系统,最重要的一个
local:本地文件系统

2.hdfs分布式文件系统的设计目标
1.硬件错误是常态,特别是硬盘的损坏是常态(采用副本机制来避免)
2.数据流访问 所有的数据访问都是大量的数据,使用IO流一直操作,追求的是稳定,不是效率
3.大数据集 假设所有存储到hdfs的数据都是海量的数据,不擅长处理小文件,一个小文件占用一个元数据,元数据都存储在内存当中,占用namenode的大量内存(namenode的内存是一定的)
4.简单的相关模型 假设文件是一次写入,多次读取,不会有频繁的更新&#x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值