DataWhale 大数据处理技术组队学习task5

最新推荐文章于 2024-08-13 17:31:17 发布

Y_fulture

最新推荐文章于 2024-08-13 17:31:17 发布

阅读量414

点赞数

分类专栏：大数据处理技术文章标签：学习 hadoop hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yzy_fulture/article/details/129251584

版权

大数据处理技术专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章详细阐述了Hadoop中处理小文件的弊端，包括元数据管理的挑战和MapReduce计算效率的降低，以及应对策略。同时，讨论了HDFS中DataNode故障的处理方法和NameNode故障的恢复方案。此外，介绍了HBase的读写流程以及MapReduce中的Shuffle过程和三次排序概念。

摘要由CSDN通过智能技术生成

六、期中大作业

1. 面试题

1.1 简述Hadoop小文件弊端

当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢。小文件过多，在进行MR计算时，会生成过多切片，需要启动过多的MapTask。每个MapTask处理的数据量小，导致MapTask的处理时间比启动时间还小，白白消耗资源。
解决方案：
- 数据源头控制小文件出现：在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS
- 在业务处理之前：在HDFS上使用MapReduce程序对小文件进行合并。
- 在MapReduce处理时，可采用CombineTextInputFormat提高效率

1.2 HDFS中DataNode挂掉如何处理

关闭pipeline(通信管道)
根据ack queue将已经发送的pocket添加回data queue(撤回已经发送到故障节点的pocket)
namenode记录故障节点中的未完成的block信息, 待节点恢复后, 删除这部分数据
在剩余的节点上建立新的通信管道
继续传输pocket
datanode挂掉后缺失的副本会namenode管理下恢复

1.3 HDFS中NameNode挂掉如何处理

如果只配置了一个NameNode作为主节点
- 方法一：拷贝SNN数据到NN存储数据的目录中
  - kill -9 NameNode进程
  - 删除NameNode存储的数据
  - 拷贝SecondaryNameNode中数据到原NameNode存储数据目录
  - 重新启动NameNode即可
- 方法二：使用-importCheckpoint选项启动NN守护进程，它会将SNN数据拷贝到NN数据目录中
  - 修改hdfs-site.xml
  - kill -9 NameNode进程
  - 删除NameNode存储的数据
  - 拷贝SecondaryNameNode中数据到原NameNode存储数据目录并删除in_use.lock文件
  - 导入检查点数据
  - 启动NameNode

1.4 HBase读写流程

HBase写流程：
- Client访问zookeeper，获取元数据存储所在的regionserver
- 通过刚刚获取的地址访问对应的regionserver，拿到对应的表存储的regionserver
- 去表所在的regionserver进行数据的添加
- 查找对应的region，在region中寻找列族，先向memstore中写入数据
- 当memstore写入的值变多，触发溢写操作（flush），进行文件的溢写，成为一个StoreFile
- 当溢写的文件过多时，会触发文件的合并（Compact）操作
- 当region中的数据逐渐变大之后，达到某一个阈值，会进行裂变（一个region等分为两个region，并分配到不同的regionserver），原本的Region会下线，新Split出来的两个Region会被HMaster分配到相应的HRegionServer上，使得原先1个Region的压力得以分流到2个Region上。
HBase读流程：
- Client访问zookeeper，获取元数据存储所在的regionserver
- 通过刚刚获取的地址访问对应的regionserver，拿到对应的表存储的regionserver
- 去表所在的regionserver进行数据的读取
- 查找对应的region，在region中寻找列族，先找到memstore，找不到去blockcache中寻找，再找不到就进行storefile的遍历
- 找到数据之后会先缓存到blockcache中，再将结果返回

1.5 MapReduce为什么一定要又Shuffle过程

Shuffle使map和reduce之间的桥梁，reduce需要Shuffle来获取数据

1.6 MapReduce中的三次排序

不是很能理解题目的意思，有点疑惑

1.7 MapReduce为什么不能产生过多小文件

文件的元数据存储在namenode中，每个文件的元数据都差不多大，小文件过多会极大的占用namonode
的内存，制约集群的扩展。（主要影响）
在对小文件进行处理的时候，一个小文件对应一个maptask，一个maptask会开启一个JVM进程，JVM处理一个maptask后会关闭，这样JVM开关的时间会比处理maptask的时间更长，严重浪费了资源，因为进程的开启销毁会严重性能。
HDFS读写小文件时也会更加耗时，因为每次都需要从NameNode获取元信息，并且对应的DataNode建立连接

2. 实验（之后统一完成）

参考自DataWhale组队学习资料

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
DataWhale 大数据处理技术组队学习task5

Hadoop, 面试题
复制链接

扫一扫

专栏目录

博客等级

码龄4年

36
原创

194
点赞

700
收藏

155
粉丝

关注

私信

热门文章

分类专栏

最新评论

一、引言（DataWhale大模型理论基础）
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
1.机器学习介绍（李宏毅深度学习task1）
xiaoadven: 分类和回归的输出值是不是写反了
DataWhale 大数据处理技术组队学习task5
CSDN-Ada助手: 非常感谢您分享 DataWhale 大数据处理技术组队学习task5 的经验，相信这篇博客会对其他数据分析爱好者有很大的帮助。同时，我们也期待您能够继续分享更多有关大数据处理技术的相关文章。建议您可以写一篇关于如何利用Hadoop进行数据分析的文章，这将会是非常有价值的技术博客主题。期待您的下一篇文章！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
python三种保留两位小数的方法
Hey_EG: 现在第一种方法好像也是四舍六入五凑偶的结果了
DataWhale 大数据处理技术组队学习task4
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN一周精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/613653920。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。