HDFS的应用

背景:
2002年 起源于Apache Nutch
2004年 借鉴Google GFS, 开发Nutch MapReduce
2004年 借鉴Google MapReduce 开发Nutch MapReduce
2006年 成为Lucene下的独立子项目 改名为Hadoop
2008年 Hadoop成为Apache的顶级项目

一、基本概念
1、块 block :是文件存储处理的逻辑单元 默认一个块64MB 每个块保存3份
2、NameNode:保存元数据
3、DataNode: 保存数据块

二、数据管理策略和容错
1、每个数据块保存3份
2、心跳检测
3、二级NameNode: SecondaryNameNode

三、HDFS特点
1、数据冗余 水平拓展 高容错 廉价硬件 开源生态系统
2、流式的数据访问(写一次 读多次)
3、存储大文件

适用性和局限性:
1、适合数据批量读写 高吞吐量
2、不适合交互式应用 低延迟很难满足
3、适合一次写入多次读取,顺序读写
4、不支持多用户并发写相同文件
在这里插入图片描述
在这里插入图片描述
四、HDFS架构
在这里插入图片描述
五、HDFS读写操作
1、读
在这里插入图片描述
在这里插入图片描述
2、写
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
六、副本放置策略
1、NameNode来选择数据库的存放节点 它按照机架配置来选择节点
2、如果是3芬苯放置策略 优先放置到离写入客户端最近的DataNode节点
3、然后是该节点同机架上的一个节点
4、最后是与该节点不在同机架的一个节点
辅助策略:
1、随机选一个几点
2、随机选择2次 返回磁盘使用率较低的一个节点

七、部署安装
在这里插入图片描述
在这里插入图片描述
回收站:开启回收站之后 用户通过fs shell不小心删除的文件会被先放到回收站中 回收站的清除粗略默认1小时 也可设置更久的时间
在这里插入图片描述
seen_txid: 事务id
in_use.lock: 表示当前block正在被使用
edits_inprogress_00000000940393849: 表示当前文件持续更新中
可以发现: 其他处理好的文件名 有起始事务id - 结束事务id 组成 并且文件之间的事务id是首尾相连的 (如果存在不相连的事务id 那说明数据丢失)

在这里插入图片描述
BP: block pool
finalized: 默认有200多个subdir subdir又会生成子级subdir 多级目录

日志:
在这里插入图片描述
在这里插入图片描述
Secunity is off: 没有开启Secunity
Safemode is off: 可以提供正常读写功能
Live Nodes: 存活节点
Dead Nodes:异常节点
还有其他的HDFS的监控信息

八、HDFS相关命令:
put get cat dfsadmin -report

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值