HDFS的应用

最新推荐文章于 2022-12-27 15:19:47 发布

阳光6号

最新推荐文章于 2022-12-27 15:19:47 发布

阅读量583

点赞数

分类专栏：大数据 hdfs 文章标签： hdfs 大数据 hadoop

本文链接：https://blog.csdn.net/weixin_37744901/article/details/105425898

版权

大数据同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

hdfs

1 篇文章 0 订阅

订阅专栏

背景：
2002年起源于Apache Nutch
2004年借鉴Google GFS, 开发Nutch MapReduce
2004年借鉴Google MapReduce 开发Nutch MapReduce
2006年成为Lucene下的独立子项目改名为Hadoop
2008年 Hadoop成为Apache的顶级项目

一、基本概念
1、块 block ：是文件存储处理的逻辑单元默认一个块64MB 每个块保存3份
2、NameNode：保存元数据
3、DataNode：保存数据块

二、数据管理策略和容错
1、每个数据块保存3份
2、心跳检测
3、二级NameNode： SecondaryNameNode

三、HDFS特点
1、数据冗余水平拓展高容错廉价硬件开源生态系统
2、流式的数据访问(写一次读多次)
3、存储大文件

适用性和局限性：
1、适合数据批量读写高吞吐量
2、不适合交互式应用低延迟很难满足
3、适合一次写入多次读取，顺序读写
4、不支持多用户并发写相同文件
在这里插入图片描述

四、HDFS架构

五、HDFS读写操作
1、读

2、写

六、副本放置策略
1、NameNode来选择数据库的存放节点它按照机架配置来选择节点
2、如果是3芬苯放置策略优先放置到离写入客户端最近的DataNode节点
3、然后是该节点同机架上的一个节点
4、最后是与该节点不在同机架的一个节点
辅助策略：
1、随机选一个几点
2、随机选择2次返回磁盘使用率较低的一个节点

七、部署安装
在这里插入图片描述

回收站：开启回收站之后用户通过fs shell不小心删除的文件会被先放到回收站中回收站的清除粗略默认1小时也可设置更久的时间

seen_txid: 事务id
in_use.lock: 表示当前block正在被使用
edits_inprogress_00000000940393849: 表示当前文件持续更新中
可以发现：其他处理好的文件名有起始事务id - 结束事务id 组成并且文件之间的事务id是首尾相连的 (如果存在不相连的事务id 那说明数据丢失)

在这里插入图片描述
BP： block pool
finalized: 默认有200多个subdir subdir又会生成子级subdir 多级目录

日志：
在这里插入图片描述

Secunity is off：没有开启Secunity
Safemode is off：可以提供正常读写功能
Live Nodes：存活节点
Dead Nodes：异常节点
还有其他的HDFS的监控信息

八、HDFS相关命令：
put get cat dfsadmin -report

阳光6号

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
HDFS的应用

背景：2002年起源于Apache Nutch2004年借鉴Google GFS, 开发Nutch MapReduce2004年借鉴Google MapReduce 开发Nutch MapReduce2006年成为Lucene下的独立子项目改名为Hadoop2008年 Hadoop成为Apache的顶级项目一、基本概念1、块 block ：是文件存储处理的逻辑单元默认一...
复制链接

扫一扫