
面试
文章平均质量分 77
话数Science
大数据工程师
展开
-
【大数据面试题】HBase面试题附答案
HBase是一种基于Hadoop的列示分布式非关系型数据库,它是高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价服务器上搭建起大规模结构化存储集群。它是Google论文BigTable的实现。a. 保证HMaster的高可用;b. 存储所有的HRegion的寻址入口;c. 实时监控HRegionServer的上线和下线信息,并实时通知给HMaster;d. 存储HBase的schema和table元数据;原创 2024-01-25 16:14:49 · 3890 阅读 · 1 评论 -
【大数据精讲】全量同步与CDC增量同步方案对比
全量同步与CDC增量同步方案对比问题与挑战FlinkCDCFlink CDC 是以 Debezium 作为底层采集工具。Debezium 支持全量同步,也支持增量同步,也支持全量 + 增量的同步,非常灵活,同时基于日志的 CDC 技术使得提供 Exactly-Once 成为可能。DataX工作原理调度流程性能优化原创 2024-01-23 19:21:30 · 2006 阅读 · 0 评论 -
【大数据精讲】HBase基本概念与读写流程
HBase基本概念HBase数据模型Name Space命名空间TableRowColumnTime StampCell逻辑结构物理存储结构基础架构Meta表架构RegionServer架构HBase写流程HBase读流程原创 2024-01-23 09:54:26 · 1281 阅读 · 0 评论 -
MySQL与PostgreSQL对比
MySQL与PostgreSQL对比2000万计算逻辑三层情况下:1170 * 1170 * 16 = 21902400,得出两千万左右条数据PostgreSQL单表最大32T,不限制记录数,但最多能存多少条记录还要看单条记录大小和对查询性能的要求,如果没有复杂的查询或统计操作正常单表上亿条记录查询性能也是能接受的。否则就要考虑分区或分库分表操作。看网上经验值,为保证较好的查询性能,MySQL在单表1000w~2000w数据记录时就要考虑分库分表操作。原创 2024-01-21 11:10:14 · 3348 阅读 · 0 评论 -
【大数据面试】常见数仓建模面试题附答案
什么是数据仓库?如何构建数据仓库?概念模型、逻辑模型、物理模型分别介绍一下?SCD常用的处理方式有哪些?模型设计的思路?业务驱动?数据驱动?数仓架构为什么要分层?事实表的类型?维度建模步骤?维度建模的三种模式?数仓架构进化?数据仓库如何保证数据质量?开发流程/你们是怎么测试的?维度建模过程?维度建模的三种模式?事实表都有哪几种?原创 2024-01-11 10:54:10 · 2934 阅读 · 0 评论 -
【大数据面试】Flink面试题附答案
1、背压问题2、Flink是如何支持批流一体的3、Flink任务延迟高,想解决这个问题,你会如何入手4、Flink的监控页面,有了解吗,主要关注那些指标?5、你们之前Flink集群规模有多大?部署方式是什么?你了解哪些部署方式?6、Flink如何做压测和监控7、Flink checkpoint 的相关查考?如何做checkpoint,如何监控,存储在哪里?等8、Flink Savepoint 的相关查考?9、Flink exactly-once 的保证?原创 2024-01-11 10:48:23 · 4194 阅读 · 1 评论 -
【大数据架构】日志采集方案对比
Flume更注重于数据的传输,对于数据的预处理不如Logstash。在传输上Flume比Logstash更可靠一些,因为数据会持久化在channel中。数据只有存储在sink端中,才会从channel中删除,这个过程是通过事物来控制的,保证了数据的可靠性。Logstash是ELK组件中的一个,一般都是同ELK其它组件一起使用,更注重于数据的预处理,Logstash有比Flume丰富的插件可选,所以在扩展功能上比Flume全面。但Logstash内部没有persist queue,所以在异常情况下会出现数据丢原创 2024-01-09 20:41:19 · 1570 阅读 · 0 评论 -
我的大数据之路:2023年度总结
我的大数据之路:2023年度总结2023年度最值得骄傲的事2023年度吐血的经验教训Kafka+Flink+StarRocks/Doris的实时离线一体化方案正在成为小公司数仓架构首选。2023年度难忘的面试经历原创 2024-01-02 21:47:42 · 1296 阅读 · 0 评论 -
【大数据面试知识点】Spark中的累加器
累加器用来把Executor端变量信息聚合到Driver端,在driver程序中定义的变量,在Executor端的每个task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回driver端进行merge。累加器一般是放在行动算子中进行操作的。原创 2024-01-01 12:32:56 · 787 阅读 · 0 评论 -
【大数据面试知识点】分区器Partitioner:HashPartitioner、RangePartitioner
【大数据面试知识点】分区器Partitioner:HashPartitioner、RangePartitioner原创 2024-01-01 12:15:28 · 782 阅读 · 0 评论 -
【美团大数据面试】大数据面试题附答案
美团大数据面试、大数据面试题附答案1.hdfs读写流程解析2.hdfs副本机制,三副本原因,副本存放策略3.hdfs容错机制原理4.MapReduce执行流程详解5.spark和mr的区别6.TopN求法,大数据量无法完全写入内存解决方案,MapReduce实现方法7.spark部署、调度原理8.spark的stage划分方法9.reduce join执行过程10.大数据量join优化方法11.hive优化手段12.hiveSQL底层执行机制13.spark容错机制原理原创 2023-12-24 18:29:20 · 1251 阅读 · 0 评论 -
【美团大数据面试】Java面试题附答案
美团大数据面试、美团面试题、美团java面试题Java1.多线程代码示例2.单例代码示例3.LinkedBlockingQueue原理解析4.模板设计模式讲解5.生产者-消费者队列设计方法6.堆内存和栈内存的区别7.ThreadLocal底层机制8.synchronized原理,存在的问题,解决方案9.volatile使用场景和原理,与synchronized的差异10.Java内存模型解析11.hashtable、hashmap性能提升方法12.redis缓存问题解决方案原创 2023-12-24 18:22:02 · 1051 阅读 · 0 评论 -
【大数据面试】Kafka面试题与答案
如果有一条offset对应的数据,消费完成之后,手动提交失败,如何处理?正在消费一条数据,Kafka挂了,重启以后,消费的offset是哪一个。介绍下Kafka,Kafka的作用?Kafka的ISR、OSR和ACK介绍,ACK分别有几种值?Kafka的消费者和消费者组有什么区别?为什么需要消费者组?Kafka为什么同一个消费者组的消费者不能消费相同的分区?Kafka如何保证数据的ExactlyOnce?Kafka作为消息队列,它可解决什么样的问题?Kafka producer的写入数据过程?原创 2023-12-20 17:38:44 · 486 阅读 · 0 评论 -
【大数据面试】MySQL面试题与答案
数据库中的事务是什么,MySQL中是怎么实现的MySQL事务的特性?数据库事务的隔离级别?解决了什么问题?默认事务隔离级别?脏读,幻读,不可重复读的定义MySQL怎么实现可重复读?数据库第三范式和第四范式区别?MySQL的存储引擎?数据库有哪些锁?说下悲观锁、乐观锁分布式数据库是什么?死锁产生的条件是什么?如何预防死锁?介绍下数据库的ioin(内连接,外连接,全连接),内连接和外连接(左,右连接)的区别MySQL的join过程MySQL有哪些存储引擎?原创 2023-12-20 17:36:13 · 1168 阅读 · 0 评论 -
【大数据面试】Flink面试题附答案
Flink面试题附答案Flink架构Flink的窗口了解哪些,都有什么区别,有哪几种?如何定义?Flink窗口函数,时间语义相关的问题介绍下Flink的watermark(水位线),watermark需要实现哪个实现类,在何处定义?有什么作用Flink的窗口(实现)机制说下Flink的CEP说一说Flink的Checkpoint机制Flink的Checkpoint底层如何实现的?savepoint和checkpoint有什么区别?Flink的Checkpoint流程原创 2023-12-19 10:29:14 · 2196 阅读 · 0 评论 -
【大数据面试】YARN常见问题与答案
YARN常见问题与答案介绍下YARN:YARN有几个模块YARN工作机制YARN有什么优势,能解决什么问题?YARN容错机制YARN高可用YARN调度器YARN中Container是如何启动的?YARN的改进之处,Hadoop3.x相对于Hadoop 2.x?YARN监控原创 2023-12-18 18:57:20 · 663 阅读 · 0 评论 -
【大数据面试】MapReduce常见问题与答案
MapReduce常见问题与答案,介绍下MapReduceMapReduce优缺点MapReduce架构MapReduce工作原理MapReduce哪个阶段最费时间MapReduce中的Combine是干嘛的?有什么好外?MapReduce为什么一定要有环型缓冲区MapReduce为什么一定要有Shuffle过程MapReduce的Shuffle过程及其优化Reduce怎么知道去哪里拉Map结果集?Reduce阶段都发生了什么,有没有进行分组原创 2023-12-18 18:55:51 · 1000 阅读 · 0 评论 -
【HDFS面试】HDFS面试题&答案
HDFS面试题&答案:HDFS文件写入和读取流程HDFS组成架构介绍下HDFS,说下HDFS优缺点,以及使用场景HDFS作用HDFS的容错机制HDFS的存储机制HDFS的副本机制HDFS的常见数据格式,列式存储格式和行存储格式异同点,列式存储优点有哪些?HDFS如何保证数据不丢失?HDFS NameNode高可用如何实现?需要哪些角色?HDFS的文件结构?HDFS的默认副本数?为什么是这个数量?如果想修改副本数怎么修改?介绍下HDFS的BlockHDFS的块默认大小,64M和1原创 2023-12-17 19:10:51 · 926 阅读 · 0 评论 -
【Spark面试】Spark面试题&答案
Spark常见面试题原创 2023-12-17 19:01:14 · 8695 阅读 · 0 评论 -
【Hadoop面试】Hadoop面试题汇总附答案
Hadoop集群工作时启动哪些进程?Hadoop的默认块大小是多少?Hadoop主要分哪几个部分?Hadoop为什么要从2.x升级到3.x?Hadoop 1.x,2x,3.x的区别。搭建Hadoop集群的xml文件有哪些?在集群计算的时候,什么是集群的主要瓶颈。Hadoop的checkpoint流程。Hadoop作业提交到YARN的流程?Hadoop的Combiner的作用。说下Hadoop生态圈组件及其作用。Hadoop常见的压缩算法?Hadoop的运行模式。Block划分的原因。Hadoop的优缺点。原创 2023-12-17 18:47:32 · 393 阅读 · 0 评论 -
【Hadoop面试】HDFS读写流程
HDFS读写流程详解原创 2023-12-17 18:32:21 · 1353 阅读 · 0 评论 -
Spark常见算子汇总
Spark常见算子汇总原创 2023-12-06 10:54:44 · 808 阅读 · 0 评论 -
快手数仓面试题附答案
快手数仓面试题附答案,spark面试题原创 2023-12-05 16:38:58 · 1652 阅读 · 0 评论 -
Spark面试题汇总
Spark面试题汇总:Spark作业的基本运行原理、Spark任务是如何执行的?SparkSQL调优UDF怎么管理、Thrift Server怎么使用?原创 2023-11-08 17:56:59 · 106 阅读 · 0 评论 -
数仓开发面试题之Hadoop相关
数仓开发面试题之Hadoop相关:MapReduce原理,map数、reduce数的参数说一下 map join 与 reduce joinhive sql怎么优spark和hive的区别数据倾斜几种解决方式数据如何清洗说一下udf、udtf、udaf ,集成的类、接口,怎么写hive文件存储格式,对比内外表区别hive执行的job数是怎么确定的cube、grouping sets、grouping__idorder by、sort by、distribute by、cluster b原创 2023-11-05 11:01:27 · 197 阅读 · 0 评论 -
SQL面试题-手写连续3日登录
SQL面试题-手写连续3日登录原创 2023-10-28 19:23:02 · 106 阅读 · 0 评论 -
SQL面试题:手写7日留存
SQL面试题:手写7日留存。原创 2023-10-28 13:22:02 · 133 阅读 · 0 评论 -
Spark宽依赖窄依赖的区别
子RDD的一个分区依赖了父RDD的多个分区,即多个子RDD的分区数据依赖父RDD的同一个分区的数据。NarrowDependency :parent RDD 的一个或多个分区的数据全部流入到 child RDD 的一个或多个分区;ShuffleDependency: parent RDD 的每个分区的不同部分,分别流入到 child RDD 的不同分区。原创 2023-10-03 10:45:16 · 2049 阅读 · 0 评论 -
SQL面试常见函数
[1,2,3]1,2,3原创 2023-10-01 10:54:10 · 409 阅读 · 0 评论 -
关于数据治理的思考
实现对数据整个生命周期的管理。原创 2023-09-30 14:54:45 · 230 阅读 · 1 评论 -
Kimball维度建模常见考点
支架表定义:当一个属性集合(例如日期、地点)在某个维度或多个维度表中反复出现时,就可以考虑使用支架表。注意:通常将支架表的外键放入事实表中,而不是放置在基本维度中。星型模型支架表雪花模型数据仓库不保留维度表,首先数据量太大,没必要用一张维度表来进行存储,其次没有数据仓库需要的任何数据时,因此退化维度的维度表可以被剔除。比如说订单id,券领取记录id, 进行数据查询或者数据过滤的时候又非常需要,就直接退化到事实表中作为一个字段;操作型事务。原创 2023-09-29 20:26:25 · 1332 阅读 · 0 评论 -
数据开发面试:什么是缓慢维度变化?
缓慢维度变化SCD(Slowly Changing Dimentions),是指维表数据不是静态不变的,而是随时间缓慢变化的。在实际使用中,常使用拉链表来解决数据的缓慢变化维,既可保存历史数据,又可以防止数据的冗余。原创 2023-09-27 16:55:45 · 376 阅读 · 1 评论 -
SQL面试题:拉链表实现
【代码】SQL面试题:拉链表实现。原创 2023-09-27 16:30:32 · 633 阅读 · 1 评论 -
SQL面试题:求用户最大连续登录天数
用户不超过2天即视为连续登录,求用户最大连续登录天数,如用户A分别在1、3、5、6号进行登录,则用户连续登录天数为6天。原创 2023-09-15 13:02:34 · 902 阅读 · 0 评论 -
SQL面试题:直播间高峰人数
基于以下表和数据,计算直播间最高峰人数(分钟级别)原创 2023-09-13 11:22:07 · 616 阅读 · 1 评论