分布式文件系统hdfs详细介绍

最新推荐文章于 2024-06-12 21:35:32 发布

喵喵秀拌酱

最新推荐文章于 2024-06-12 21:35:32 发布

阅读量1.2k

点赞数

分类专栏：笔记文章标签：分布式大数据 hadoop 数据库

本文链接：https://blog.csdn.net/Carina_____/article/details/108203211

版权

本文详细介绍了分布式文件系统HDFS，包括其起源、架构演变、元数据管理，以及文件的写入与读取过程。重点讨论了HDFS的元数据在1.x和2.x架构中的不同管理方式，以及NameNode的角色。同时，概述了HDFS的副本机制、Block存储和权限验证。最后，讲解了如何通过Java API操作HDFS。

摘要由CSDN通过智能技术生成

课程回顾：
1、hadoop的发展历史简介
2、hadoop的历史版本
3、hadoop的三大发行公司 apache 开源版本 CDH版本所有软件的兼容性，软件的升级都做好了
元数据：描述数据的数据
4、hadoop1.x与2.x的架构模型区别
1.x架构：
HDFS:
namenode:主节点，管理元数据信息，处理用户的请求
secondarynamenode：辅助namenode管理元数据
datanode：从节点，主要用于存储数据
MapReduce：
JobTracker：主节点，接收用户请求，分配任务
taskTracker：从节点，主要用于执行任务
2.x架构：
HDFS：分布式文件存储系统
namenode：主节点，管理元数据信息，处理用户的请求
secondaryNamenode：辅助namenode管理元数据信息
datanode：从节点，主要用于存储数据
如果namenode是ha的模式
journalnode：同步namenode之间的元数据信息
zkfc：zkFailoverController 守护进程，监看namenode的健康状况
yarn：资源调度系统
resourceManager：主节点，接收用户请求，分配资源
nodemanager：执行任务的
3、apache版本的hadoop的三种环境的搭建
standAlone：单机版的hadoop运行环境
伪分布式：所有的主节点都在同一台机器上面，从节点分开
完全分布式：把所有的主节点，完全分开到不同的机器上面去

4、CDH版本的hadoop的重新编译
为什么要重新编译cdh版本的hadoop 因为cdh版本的lib/native本地库没有任何C程序，重新编译为支持我们的本地库的C程序，以及snappy的压缩
重新编译：
5、cdh版本的zk的环境部署
6、cdh版本的伪分布式的环境搭建
7、hadoop集群的使用体验
hdfs的命令行的使用熟练使用
8、hadoop的基准测试

分布式文件系统hdfs

1.详细介绍
2.hdfs的架构图
3.hdfs的元数据信息的管理
4.文件的写入与读取过程
5.hdfs的javaAPI操作

分布式文件计算系统mapreduce的入门
1.写一个wordcount单词计数

1.分布式文件系统设计思路以及文件系统的基本介绍
084736

hadoop的文件系统
文件系统：是一个顶层的抽象，具体的实现，需要取决于你自己获取的实例
我们可以通过文件系统获取本地文件系统，操作linux磁盘上面的文件；也可以获取分布式文件系统，操作hdfs上面的文件
ftp://ftp文件系统可以做文件的上传和下载
webHdfs：浏览器操作系统，可以允许我们通过浏览器上传、下载、修改、hdfs上面的文件
hdfs:分布式文件系统，最重要的一个
local:本地文件系统

2.hdfs分布式文件系统的设计目标
1.硬件错误是常态，特别是硬盘的损坏是常态（采用副本机制来避免）
2.数据流访问所有的数据访问都是大量的数据，使用IO流一直操作，追求的是稳定，不是效率
3.大数据集假设所有存储到hdfs的数据都是海量的数据，不擅长处理小文件，一个小文件占用一个元数据，元数据都存储在内存当中，占用namenode的大量内存（namenode的内存是一定的）
4.简单的相关模型假设文件是一次写入，多次读取，不会有频繁的更新&#x

最低0.47元/天解锁文章

喵喵秀拌酱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分布式文件系统hdfs详细介绍

课程回顾：1、hadoop的发展历史简介2、hadoop的历史版本3、hadoop的三大发行公司 apache 开源版本 CDH版本所有软件的兼容性，软件的升级都做好了元数据：描述数据的数据4、hadoop1.x与2.x的架构模型区别1.x架构：HDFS:namenode:主节点，管理元数据信息，处理用户的请求secondarynamenode：辅助namenode管理元数据datanode：从节点，主要用于存储数据MapReduce：JobTracker：主节点，接收用户请求
复制链接

扫一扫