大数据面试一锅炖，2024年最新2024年阿里+腾讯+快手offer都已拿到

最新推荐文章于 2024-09-26 17:10:31 发布

2401_84181368

最新推荐文章于 2024-09-26 17:10:31 发布

阅读量691

点赞数 14

分类专栏： 2024年程序员学习文章标签：大数据面试职场和发展

本文链接：https://blog.csdn.net/2401_84181368/article/details/137795368

版权

2024年程序员学习专栏收录该内容

64 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

hbase写：
客户端向zookeeper请求写文件，zookeeper查询元数据及列族，namespar，表名找到表的region位置，找到region对应的regionserver发送写数据请求。
同时写入到Hlog和memorystore,memorystore溢出刷到磁盘storefile，删除Hlog历史数据。

三、hdfs

datanode和namenode工作机制
第一次启动格式化namenode,创建fsimage和edits log,只需要加载一次fsimage
第二次重启，加载fsimage和edits log,合并操作，生成新的edits log.启动过程有30秒等待时间为安全模式

四、yarn

在YARN HA中，有两个主要组件：ResourceManager（RM）和NodeManager（NM）。ResourceManager负责管理和调度集群资源，NodeManager负责在每个节点上运行和监控应用程序的执行

Yarn工作机制简述
1、用户使用客户端向 RM 提交一个任务job，同时指定提交到哪个队列和需要多少资源。
2、RM 在收到任务提交的请求后，先根据资源和队列是否满足要求选择一个 NM，通知它启动一个ApplicationMaster（AM） container，后续流程由它发起
3、AM 向 RM 注册后根据自己任务的需要，向 RM 申请 container，包括数量、所需资源量、所在位置等因素。
4、如果队列有足够资源，RM 会将 container 分配给有足够剩余资源的 NM，由 AM 通知 NM 启动 container。
5、container 启动后执行具体的任务，处理分给自己的数据。NM 除了负责启动 container，还负责监控它的资源使用状况以及是否失败退出等工作，如果container实际使用的内存超过申请时指定的内存，会将其杀死，保证其他 container 能正常运行。
6、各个 container 向 AM 汇报自己的进度，都完成后，AM 向 RM 注销任务并退出，RM 通知 NM 杀死对应的 container，任务结束。

yarn队列模式
先入先出调度-单队列-任务等待
容量调度器-多队列-内部采用FIFO调度-优先使用资源利用率低的队列
公平调度-多队列-内部公平分享资源-优先选择对资源缺额比例大的（某一时刻一个作业应获资源和实际获取资源的差额叫“缺额”）。