大数据面试题
青云游子
大数据开发工程师
展开
-
完美世界大数据笔试题
参考:完美- sql题 - 简书原创 2023-08-26 12:27:11 · 374 阅读 · 1 评论 -
HDFS-块丢失和块损坏
去看看有没有副本,有副本的话,NN会自动同步数据,如果没有自动同步,重启HDFS。有可能是使用的hive的外部表,元数据没有,可以使用命令修复分区。原创 2023-08-17 14:07:43 · 631 阅读 · 0 评论 -
Flink-串讲面试题
有状态的流式计算框架可以处理源源不断的实时数据,数据以event为单位,就是一条数据。原创 2023-08-08 16:53:00 · 981 阅读 · 1 评论 -
doris-面试题
mysql客户端 fe :接受客户端请求,元数据管理,节点管理 be :数据存储,查询计划执行原创 2023-08-07 20:08:07 · 1121 阅读 · 0 评论 -
Hbase-热点问题(数据存储倾斜问题)
某一台regionserver消耗过多,承受过多的并发量,时间长机器性能下降,甚至宕机。原创 2023-08-07 18:38:59 · 1359 阅读 · 0 评论 -
Hbase-面试题
自动切分,默认情况下 2.0版本,第一次region的数据达到256M,会进行切分,以后就是每达到10G切分一次,切分完成后,会进行负载均衡,均衡到其他regionserver 预分区+自定义rowkey 可以理解为预切分 比如预分区,每个regionserver会有10个region,每个region都有startrow和endrow 生产上必须要用预分区+自定义rowkey 预分区好了之后,即使没有数据,也会新建10个region的空文件 以后存数据的时候,会均匀的存到每个re原创 2023-08-07 17:08:35 · 1047 阅读 · 2 评论 -
HBase-读流程
(6)先从写缓存中读取数据,如果没有就从读缓存中读取数据,如果没有就从磁盘中读取数据,并将读取的数据放到读缓存中。(4)向Meta表所在位置的RegionServer发起请求读取Meta表信息;(1)读取本地缓存中的Meta表信息;(第一次启动客户端为空)(2)向ZK发起读取Meta表所在位置的请求;(5)读取到Meta表信息并将其缓存在本地;(3)ZK正常返回Meta表所在位置;(7)给用户返回最大版本的数据。原创 2023-08-07 15:15:43 · 932 阅读 · 0 评论 -
HBase-写流程
(4)向Meta表所在位置的RegionServer发起请求读取Meta表信息;(7)先写WAL,再写MemStore,并向客户端返回写入数据成功。(1)读取本地缓存中的Meta表信息;(第一次启动客户端为空)写流程顺序正如API编写顺序,首先创建HBase的重量级连接。(2)向ZK发起读取Meta表所在位置的请求;(5)读取到Meta表信息并将其缓存在本地;(3)ZK正常返回Meta表所在位置;(6)向待写入表发起写数据请求;原创 2023-08-07 14:43:00 · 1184 阅读 · 0 评论 -
HBase-组成
HBase通过Zookeeper来做Master的高可用、记录RegionServer的部署信息、并且存储有meta表的位置信息。拆分合并Region的实际执行者,由Master监控,由regionServer执行。负责数据cell的处理,例如写入数据put,查询数据get等。原创 2023-08-07 14:16:50 · 1196 阅读 · 0 评论 -
大数据常见面试题
9. JVM调优,组成,堆的大小,新生代和老年代大小,比例,GC回收器选择,垃圾标记算法,垃圾回收算法。4. 项目中用到的重点指标(至少3个),要非常熟悉,能说出怎么建的表,怎么算的。用ODS层重新算一遍。11.kafka怎么调优,遇到过什么问题,怎么解决的,10.常见问题: 数据丢失,数据重复,吞吐量。4.你为什么不用其他的组件,技术选型,对比。7. 数据治理项目,离线数仓,实时数仓。6. 拉链表,累积型事务事实表。5.kafka怎么部署的,几台。9.深入,架构,工作流程。2.数据丢失,数据重复。原创 2023-07-11 19:39:30 · 425 阅读 · 0 评论 -
大数据面试题-场景题
首先前5轮还是要比的,任选一组的第3名和其他组的第一名进行比赛,如果这组的第三名恰好是这次比赛的第一名,那就意味着这一组对应的前三名就是25匹马中的前三名,这种方法虽然是碰运气,但好像跟题目中的“至少”并不冲突,所以自我感觉面试的时候可以提一嘴。结果上面的分析,我们发现这题有意思的地方就是,第一快的马是单独比赛一次选出来的,而第二快和第三快的马是在同一场比赛中选出来的,找出最少比赛次数的关键所在就是我们要根据实时的比赛结果淘汰掉不可能有排名的马,从而达到压缩马数量的目的,这样可以让比赛的次数少很多。原创 2023-07-04 20:29:44 · 703 阅读 · 0 评论 -
大数据面试题-算法题
在计算机算法理论中,用时间复杂度和空间复杂度来分别从这两方面衡量算法的性能。算法的时间复杂度,是指执行算法所需要的计算工作量。一般来说,计算机算法是问题规模n 的函数fn,算法的时间复杂度也因此记做:Tn= Οfn))。问题的规模n 越大,算法执行的时间的增长率与fn的增长率正相关,称作渐进时间复杂度(Asymptotic Time Complexity)。算法的空间复杂度,是指算法需要消耗的内存空间。有时候做递归调用,还需要考虑调用栈所占用的空间。原创 2023-07-03 19:10:09 · 562 阅读 · 0 评论 -
大数据面试-注意事项
原创 2023-06-24 19:20:50 · 147 阅读 · 0 评论
分享