Hadoop从入门到入土(第十九天)

目录

HDFS-API-Fsimage和Edits解析

一、oiv查看Fsimage文件

 二、oev查看Edits文件

掉线时参数设置

总结:


HDFS-API-Fsimage和Edits解析

  1. Fsinmage文件:HDFS文件系统元数据的一个永久性的检查点,其中包含所有目录和文件的inode序列化信息。
  2. Edits文件:存放HDFS文件系统的所有更新操作的路径,文件系统客户端的所有写操作首先会被记录到Edits文件中。
  3. seen-exid文件保存的是一个数字,就是最后一个edits-的数字。
  4. 每次NameNode启动的时候都会将Fsimage文件读入内存,加载Edits里面的更新操作,保证内存中的元数据信息是最新的、同步的,可以看成NameNode启动的时候就将Fsimage和Edits文件进行了合并。

一、oiv查看Fsimage文件

  1.        查看oiv和oev命令
    [atguigu@hadoop102 current]$ hdfs
    oiv            apply the offline fsimage viewer to an fsimage
    oev            apply the offline edits viewer to an edits file

  2. 基本语法

    hdfs oiv -p 文件类型 -i镜像文件 -o 转换后文件输出路径

  3. 下载到win电脑

  4. 在win系统中查看 

 二、oev查看Edits文件

基本语法

hdfs oev -p 文件类型 -i编辑日志 -o 转换后文件输出路径

掉线时参数设置

  1. DataNode进程死亡或者网络故障造成DataNode无法与NameNode通信
  2. NameNode不会立即把该节点判断为死亡,要经过一段时间,这段时间暂称作超时时长
  3. HDFS默认的操作时长为10分钟+30秒
  4. 如果定义时间为TimeOut,则超时时长的计算公式为:TimeOut = 2*dfs.namenodleheatbeat.interval.而默认的是hdfs-site。xml配置的文件中的hearbeat.recheck.interval大小为5分钟,dfs.heartbeat.interval.
  5. 需要注意的是hdfs-site-xml配置的文件中的beartbeat。recheck.interval的单位为毫秒,dfs.heartbeat.interval的单位为秒。
    <property>
        <name>dfs.namenode.heartbeat.recheck-interval</name>
        <value>300000</value>
    </property>
    
    <property>
        <name>dfs.heartbeat.interval</name>
        <value>3</value>
    </property>
    

总结:

  1. HDFS文件块大小(面试重点)文件块的大小和硬盘的读写速度有关。在企业中  一般128m(中等公司)   256(大公司)
  2. HDFS的shell操作(开发重点)
  3. HDFS的读写流程
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop是一个开源的分布式计算框架,用于处理大规模数据的存储和分析。如果你想从入门到精通Hadoop,我可以给你一些学习路径和资源推荐。 1. 入门阶段: - 了解Hadoop的基本概念和架构,包括HDFS(分布式文件系统)和MapReduce(分布式计算模型)。 - 学习如何在单节点或伪分布式环境中安装和配置Hadoop。 - 掌握Hadoop的基本命令和操作,包括文件操作、作业提交等。 2. 深入学习阶段: - 学习Hadoop生态系统中其他相关工具和组件,如Hive(数据仓库)、Pig(数据分析语言)、HBase(NoSQL数据库)等。 - 掌握Hadoop集群的配置和部署,学习如何进行容错和故障恢复。 - 理解Hadoop的调优技巧和性能优化策略,包括数据本地性、并行度控制、任务调度等方面。 3. 实践应用阶段: - 在实际项目中应用Hadoop进行数据处理和分析,如大规模数据的清洗、转换、聚合等。 - 学习如何编写自定义的MapReduce作业,处理复杂的数据处理需求。 - 探索Hadoop的扩展能力,如与Spark、Flink等实时计算框架的结合使用。 对于学习资源,可以参考以下内容: - 官方文档:Apache官方网站提供了详细的文档和教程,适合作为入门参考。 - 书籍:《Hadoop权威指南》、《Hadoop实战》等经典书籍是学习Hadoop的好选择。 - 在线课程:Coursera、Udacity等平台提供了许多与Hadoop相关的在线课程,如《Introduction to Big Data with Apache Hadoop》等。 记住,学习Hadoop需要一定的时间和实践经验,不断进行实际项目的实践和探索是提高技能的关键。祝你学习顺利!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值