![](https://img-blog.csdnimg.cn/20190918140145169.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据面试真题
大数据面试真题限时开放 ,抓紧免费订阅收藏
白眼黑刺猬
技术分享 ,线上线下授课
微信 17710299606
展开
-
[hive面试必备]-hive如何解决数据倾斜问题
在join字段后面增加随机数,使原本倾斜的key分散到不同的reduce中去,然后在生成的结果数据中去掉随机数即可。对于group by 和order by的操作,增加"DISTRIBUTE BY"和"SORT BY",来代替group by和order by,数据倾斜问题会有所减轻。重新设计表结构:如果数据倾斜问题很严重,可能需要重新设计表的结构,确保数据更加均匀地分布在各个节点上。分桶和随机采样:通过对数据进行分桶或者采样,能够更好地均匀分配数据,从而减少数据倾斜。原创 2024-03-17 19:01:31 · 442 阅读 · 0 评论 -
[mysql必备面试题]-MySQL 锁的类型有哪些呢?
说两个维度:两个维度结合来看:原创 2024-03-16 21:33:33 · 330 阅读 · 0 评论 -
[mysql面试必备技能]-一条SQL的执行过程
到此,关于Buffer Pool、Redo Log Buffer 和undo log、redo log、bin log 概念以及关系就基本差不多了。我们再回顾下Buffer Pool 是 MySQL 的一个非常重要的组件,因为针对数据库的增删改操作都是在 Buffer Pool 中完成的Undo log 记录的是数据操作前的样子redo log 记录的是数据被操作后的样子(redo log 是 Innodb 存储引擎特有)原创 2024-03-16 12:56:11 · 1125 阅读 · 0 评论 -
[mysql必备面试题]-mysql索引(B+ Tree )
数据库系统将索引的一个节点的大小设置为页的大小,使得一次 I/O 就能完全载入一个节点,并且可以利用预读特性,相邻的节点也能够被预先载入。InnoDB 存储引擎有一个特殊的功能叫“自适应哈希索引”,当某个索引值被使用的非常频繁时,会在 B+Tree 索引之上再创建一个哈希索引,这样就让 B+Tree 索引具有哈希索引的一些优点,比如快速的哈希查找。选择性越高,查询效率也越高。辅助索引的叶子节点的 data 域记录着主键的值,因此在使用辅助索引进行查找时,需要先查找到主键值,然后再到主索引中进行查找。原创 2024-03-15 17:08:55 · 1055 阅读 · 0 评论 -
[mysql必备面试题]-InnoDB和MyISAM引擎的区别
如果指定了 DELAY_KEY_WRITE 选项,在每次修改执行完成时,不会立即将修改的索引数据写入磁盘,而是会写到内存中的键缓冲区,只有在清理键缓冲区或者关闭表的时候才会将对应的索引块写入磁盘。如果应用程序以读取为主,不需要事务支持,MyISAM可能是一个更好的选择。其它存储引擎不支持在线热备份,要获取一致性视图需要停止对所有表的写入,而在读写混合场景中,停止写入可能也意味着停止读取。可以手工或者自动执行检查和修复操作,但是和事务恢复以及崩溃恢复不同,可能导致一些数据丢失,而且修复操作是非常慢的。原创 2024-03-15 17:04:01 · 593 阅读 · 0 评论 -
[2024年]-flink面试真题(四)
[2024年]-flink面试真题(二)[2024年]-flink面试真题(二)[2024年]-flink面试真题(三)原创 2024-03-11 12:32:31 · 770 阅读 · 0 评论 -
[2023年]-hadoop面试真题(三)
[2023年]-hadoop面试真题(一)[2023年]-hadoop面试真题(二)原创 2024-03-11 12:28:18 · 751 阅读 · 0 评论 -
[2023年]-hadoop面试真题(二)
[2023年]-hadoop面试真题(二)原创 2024-03-10 21:33:29 · 590 阅读 · 0 评论 -
[2023年]-hadoop面试真题(一)
更多面试真题请连接更多视频学习资料分享原创 2024-03-10 21:23:46 · 758 阅读 · 0 评论 -
[hive面试真题]-基础理论篇
hive出现code 1 2 3 什么原因 ,怎么处理。hive中如果出现数据倾斜 ,怎么发现 ,怎么处理。工作中hive常见的文件格式 .压缩格式。hive中如何对数据去重 ,有什么区别。发现hive分区中的数据不对怎么处理。工作中hive分区表的应用示例。hive如何优化 ,怎么优化。hive中关联方式有哪几种。hive中分区表,分桶表。工作时常用的hive函数。谈谈对窗口函数的理解。原创 2024-03-09 13:16:36 · 656 阅读 · 0 评论 -
[2024年]-flink面试真题(三)
1 (北京)日活是3亿条数据,需要根据1d,2d,7d,天数不固定按照天数使用Flink快速出结果,要怎么做?3 (北京)使用KafkaSource和KafkaSink的精准一次性实现原理。6 (上海 )flink如何保证处理数据过程中的正确性?2 (北京)针对flink-cdc提问,如果丢数据怎么办?5 (上海) flnk的任务失败重启策略有哪些?4 (上海) flink中状态如何管理?原创 2024-03-09 12:00:25 · 502 阅读 · 0 评论 -
[2024年]-flink面试真题(二)
4(北京)Flink cdc怎么实现同步增量数据和全量数据,底层区别是什么?2 (北京)flink on yarn的模式有哪几种 , 有什么特点?10 (上海)flink和spark streaming的区别?11(上海)Flink中Barrier工作原理,对齐机制和特点?8 (上海)flink是如何管理kakfa的offset。1(北京)什么是flink的两阶段提交?7 (北京)Flink的内存怎么管理?9 (上海)说一下flink的序列化机制。5 (北京)Flink反压机制?原创 2024-03-09 11:16:54 · 455 阅读 · 0 评论 -
[2024年]-flink面试真题(一)
(北京)flink 端到端(end-to-end)状态一致性如何保证?(北京)taskManager和slot、task的关系?(北京)flink时间语义和Watermark?(北京)谈谈flink双流join,和应用实例?(北京) flink任务出现很高的延迟如何解决?提供微信答疑服务: 17710299606。(北京)flink 的运行架构和执行流程?(北京)flink状态太大怎么解决?(北京)flink迟到数据如何处理的?(北京)什么是flink状态后端?(北京)什么是flink状态?原创 2024-03-08 13:12:04 · 603 阅读 · 0 评论