大数据面试题
文章平均质量分 88
本专栏旨在为广大求职者提供全面、系统的大数据面试题目及解答,帮助大家更好地了解大数据岗位面试的考察重点和难点。我们收集整理了众多知名企业和互联网公司的大数据面试真题,内容涵盖数据科学、数据分析、数据挖掘、大数据架构、数据仓库等多个方面,旨在帮助求职者系统地复习和巩固大数据相关知识。
依邻依伴
擅长主流开发技术,能够进行远程部署、调试、运行和安装,拥有丰富的代码量,并且乐于免费分享部分源码。若无意侵犯了您的利益,请及时通知,我将迅速采取措施解决。
展开
-
数据仓库面试题(四)
1. 简述说下一致性维度、一致性事实、总线矩阵 ?2. 简述从ODS层到DW层的ETL,做了哪些工作 ?3. 简述数据仓库与(传统)数据库的区别 ?4. 简述数据质量是怎么保证的,有哪些方法保证 ?5. 简述怎么衡量数仓的数据质量,有哪些指标 ?6. 简述什么是增量表、全量表和拉链表 ?原创 2024-06-28 09:32:51 · 707 阅读 · 0 评论 -
数据仓库面试题(三)
1. 简述什么是ER模型 ?2. 简述OLAP、OLTP解释 ?3. 简述三范式是什么,举些例子 ?4. 简述维度设计中有整合和拆分,有哪些方法,并详细说明 ?5. 简述事实表设计分几种,每一种都是如何在业务中使用 ?6. 简述单事务事实表、多事务事实表区别与作用 ?原创 2024-06-28 09:32:44 · 618 阅读 · 0 评论 -
数据仓库面试题(二)
1. 简述星型模型和雪花模型的区别?应用场景 ?2. 简述数仓建模有哪些方式 ?3. 简述数仓建模的流程 ?4. 简述维度建模的步骤,如何确定这些维度的 ?5. 简述维度建模和范式建模区别 ?6. 简述维度表和事实表的区别 ?原创 2024-06-27 09:00:58 · 2222 阅读 · 0 评论 -
数据仓库面试题(一)
1. 简述数据仓库架构 ?2. 简述数仓架构设计的方法和原则 ?3. 简述数据仓库分层(层级划分),每层做什么?分层的好处 ?4. 简述数据分层是根据什么 ?5. 简述数仓分层的原则与思路 ?6. 数仓建模常用模型吗?区别、优缺点?原创 2024-06-27 09:00:51 · 1252 阅读 · 0 评论 -
Hadoop 面试题(十二)
1. 简述Hadoop常用命令中,查看指定目录下的所有文件及子目录的命令是 ?2. 简述下列哪个属性是 hdfs-site.xml 中的配置 ?3. 简述下列关于ResourceManager描述错误的是 ?4. 简述下面关于 HDFS 中 SecondaryNameNode 描述正确的一项是 ?5. 简述关于MapReduce的描述错误的是 ?6. 下面关于Hadoop系统中使用CombineFileInputFormat解决小文件问题的描述错误的是()7. 简述部署Hadoop集群的核心文件原创 2024-06-26 17:10:26 · 904 阅读 · 0 评论 -
Hadoop 面试题(十一)
1. 简述Hadoop-2.6.5 集群中,HDFS 默认副本块(含原数据块)的个数是 ?2. Google三驾马车是Hadoop等分布式系统的基石,其中论文()不属于三驾马车之一 ?3. 简述关于安全模式命令,正确的是 ?4. 简述以下不属于Hadoop中NameNode的功能点的选项是 ?5. 简述Hadoop系统中查看指定目录/path最大的五个文件(文件夹算总体的一个文件)的指令为 ?6. Hadoop常用命令中,找出某个已存在在Hadoop系统中,且绝对路径为/tmp/1.txt文件中含原创 2024-06-26 17:10:19 · 1266 阅读 · 0 评论 -
Hadoop 面试题(十)
1. 简述下列关于Hadoop命令中,命令执行成功返回0,执行失败返回-1,下列命令返回-1的是 ?2. 关于DataNode描述中,不正确的是 ?3. 简述关于Hadoop常用命令中,touchz和Linux系统的touch命令的描述正确的是 ?4. 简述Hadoop和Hadoop生态圈的描述中,正确的是 ?5. 简述关于安全模式的描述错误的是() ?6. 简述有关Hadoop系统小文件问题的描述错误的是 ?原创 2024-06-25 23:04:01 · 1281 阅读 · 0 评论 -
Hadoop 面试题(九)
1. 简述下面关于Hadoop系统中使用CombineFileInputFormat解决小文件问题的描述错误的是() ?2. 简述有关Hadoop生态中各个角色对在高可用上的作用下列描述错误的是() ?3. 简述关于Hadoop系统中添加节点的描述错误的是 ?4. 简述不参与Hadoop系统读过程的组件是 ?5. 简述关于 HDFS 安全模式说法正确的是() ?6. 简述Hadoop生态圈中ZooKeeper的作用描述错误的选项是() ?原创 2024-06-25 23:03:12 · 883 阅读 · 0 评论 -
Hadoop 面试题(八)
1. 在 Hadoop 集群的配置文件中有如下两个配置,请问假如集群中有一个节点宕机,主节点 namenode 需要多长时间才能感知到() ?2. 简述下列关于SecondaryNameNode描述错误的是() ?3. 简述关于Hadoop命令,下列描述错误的是() ?4. 简述有关Hadoop 1.x和Hadoop 2.x的区别点描述错误的是() ?5. 简述下列关于MapReduce过程描述错误的是() ?6. 简述下列关于MapReduce过程描述错误的是() ?原创 2024-06-24 21:53:11 · 753 阅读 · 0 评论 -
Hadoop 面试题(七)
1. 简述以下选项中不参与hdfs写流程的组件是 ?2. 简述下列哪一个组件不是Hadoop系统的组件之一() ?3. 简述有关Hadoop的高可用下列描述错误的是() ?4. 简述关于安全模式命令,正确的是() ?5. 简述下列关于Hadoop架构组件描述错误的是() ?6. 简述请问以下哪个命令组成是错误的() ?原创 2024-06-24 21:48:33 · 895 阅读 · 0 评论 -
Hadoop 面试题(六)
1. 简述Google三驾马车是Hadoop等分布式系统的基石,其中论文()不属于三驾马车之一 ?2. 简述现有一个安装 2.6.5 版本的 Hadoop 集群,在不修改默认配置的情况下,存储 200 个每个 200M 的文本文件,请问最终会在集群中产生多少个数据块(包括副本) ?3. 假设有Hadoop系统中有DataNode节点1、2、3,且DataNode节点1、2、3上有Block1,Client请求上传文件file1至Hadoop系统,下面描述该Hadoop系统写流程错误的是() ?4. 简原创 2024-06-23 11:54:01 · 1008 阅读 · 0 评论 -
Hadoop 面试题(五)
1. 简述Hadoop 2.x中,DataNode中默认的块配置的大小是()MB ?2. 简述Hadoop-2.6.5 集群中的 HDFS 的默认的数据块的大小是() ?3. 简述下列关于NameNode描述正确的是() ?4. 简述A 负责Flink任务的调度 B 负责Hadoop集群的高可用 C 负责Hadoop底层文件读写功能 D 管理文件系统名称空间和对集群中存储的文件的访问 ?5. 简述关于安全模式的描述错误的是() ?6. 简述关于Hadoop常用命令中,touchz和Linux系统的原创 2024-06-23 11:53:51 · 292 阅读 · 0 评论 -
Hadoop 面试题(四)
1. 简述Hadoop节点的动态上线下线的大概操作 ?2. 简述Hadoop常用端口号 ?3. 简述Hadoop参数调优 ?4. 简述Hadoop常用命令中,启动hadoop所有进程的命令正确的是() ?5. 简述Hadoop生态圈中ZooKeeper的作用描述错误的选项是() ?6. 简述关于 HDFS 安全模式说法正确的是() ?原创 2024-06-22 07:41:30 · 586 阅读 · 0 评论 -
Hadoop 面试题(三)
1. 简述Hadoop作业提交到YARN的流程 ?2. 简述Hadoop的Combiner的作用 ?3. 简述Hadoop的运行模式 ?4. 简述Hadoop小文件处理问题-小文件的产生原因 ?5. 简述Hadoop为什么要从2.x升级到3.x ?6. 简要描述如何安装配置一个Apache开源版Hadoop,描述即可,列出步骤更好 ?原创 2024-06-22 07:41:23 · 868 阅读 · 0 评论 -
Hadoop 面试题(二)
1. 请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?2. 简述Hadoop序列化和反序列化及自定义bean对象实现序列化? ?3. 简述Hadoop的checkpoint流程 ?4. 简述Hadoop的默认块大小是多少?为什么要设置这么大 ?5. 简述Hadoop Block划分的原因 ?6. 简述Hadoop常见的压缩算法 ?原创 2024-06-21 00:19:01 · 728 阅读 · 0 评论 -
Hadoop 面试题(一)
1. 简述Hadoop核心组件 ?2. 简述Hadoop的特点 ?3. 简述Hadoop 1.x,2.x,3.x的区别 ?4. 简述Hadoop集群工作时启动哪些进程?它们有什么作用 ?5. 简述搭建Hadoop集群的xml文件有哪些 ?6. 简述解释“hadoop”和“hadoop 生态系统”两个概念 ?原创 2024-06-21 00:18:52 · 1038 阅读 · 0 评论 -
HDFS 面试题(四)
1. 简述HDFS写流程中如果DataNode突然宕机了怎么办 ?2. 简述直接将数据文件上传到HDFS的表目录中,如何在表中查询到该数据 ?3. 简述NameNode与SecondaryNameNode 的区别与联系 ?4. 简述ZKFailoverController主要职责 ?5. 简述Secondary NameNode 了解吗,它的工作机制是怎样的 ?6. Secondary NameNode 不能恢复 NameNode 的全部数据,那如何保证NameNode 数据存储安全 ?原创 2024-06-20 07:28:45 · 915 阅读 · 0 评论 -
HDFS 面试题(三)
1. 简述HDSF通过什么中间组件去存储数据 ?2. 简述HDFS跨节点怎么进行数据迁移 ?3. 简述HDFS怎么保证数据安全 ?4. 简述HDFS中向DataNode写数据失败了怎么办 ?5. 简述什么是Hadoop2.x HDFS快照 ?6. 简述HDFS写数据过程,写的过程中有哪些故障,分别会怎么处理 ?7. 简述NameNode存数据吗 ?8. 简述HDFS中DataNode怎么存储数据的 ?原创 2024-06-20 07:28:32 · 737 阅读 · 0 评论 -
HDFS 面试题(二)
1. 简述HDFS的Block ?2. HDFS的块默认大小,64M和128M是在哪个版本更换的?怎么修改默认块大小?3. 简述HDFS的block为什么是128M?增大或减小有什么影响 ?4. 简述HDFS HA怎么实现?什么架构 ?5. 简述HDFS的数据一致性靠什么保证? ?6. 简述HDFS 使用NameNode的好处 ?7. HDFS为什么文件要分块进行存储管理?8. 简述HDFS的mapper和reducer的个数如何确定?reducer的个数依据是什么 ?原创 2024-06-19 07:44:53 · 533 阅读 · 0 评论 -
HDFS 面试题(一)
1. 简述什么是HDFS,以及HDFS作用 ?2. 简述HDFS文件写入和读取流程 ?3. 简述HDFS的存储机制 ?4. 简述HDFS优缺点,以及使用场景 ?5. 简述HDFS的容错机制 ?6. HDFS的常见数据格式,列式存储格式和行存储格式异同点,列式存储优点有哪些 ?7. HDFS如何保证数据不丢失 ?8. 简述HDFS的默认副本数?为什么是这个数量?如果想修改副本数怎么修改 ?原创 2024-06-19 07:44:42 · 1005 阅读 · 0 评论 -
Spark 面试题(十六)
1. 简述Spark运行时并行度的设置 ?2. 简述Spark SQL的数据倾斜解决方案 ?3. 简述Spark的RDD和partition的联系 ?4. 简述Spark 3.0特性 ?5. 简述Spark计算的灵活性体现在哪里 ?6. 简述什么是 RDD 沿袭 ?7. 简述解释 Spark 中的 Accumulator 共享变量 ?原创 2024-06-18 00:05:14 · 780 阅读 · 0 评论 -
Spark 面试题(十五)
1. 简述Spark怎么保证数据不丢失 ?2. 简述Spark SQL如何使用UDF ?3. 简述Spark实现wordcount ?4. 简述Spark Streaming怎么实现数据持久化保存 ?5. 简述Spark SQL读取文件,内存不够使用,如何处理 ?6. 简述Spark的lazy体现在哪里 ?7. 简述Spark中的并行度等于什么 ?原创 2024-06-18 00:05:03 · 957 阅读 · 0 评论 -
Spark 面试题(十四)
1. 简述Spark Streaming的工作原理 ?2. 简述Spark输出文件的个数,如何合并小文件 ?3. 简述Spark的driver是怎么驱动作业流程的 ?4. 简述Spark SQL的劣势 ?5. 简述Spark Streaming和Structed Streaming ?6. 简述Spark为什么比Hadoop速度快 ?7. 简述Spark Streaming的双流join的过程,怎么做的 ?原创 2024-06-17 00:11:42 · 1291 阅读 · 0 评论 -
Spark 面试题(十三)
1. 简述Spark的cluster模式有什么好处 ?2. 简述Driver怎么管理executor ?3. 简述Spark的map和flatmap的区别 ?4. 简述map和mapPartition的区别 ?5. RDD的cache和persist的区别?6. 简述DataFrame的cache和persist的区别 ?7. 简述Saprk Streaming从Kafka中读取数据两种方式 ?原创 2024-06-17 00:11:36 · 1013 阅读 · 0 评论 -
Spark 面试题(十二)
1. 简述HashPartitioner和RangePartitioner的实现 ?2. 简述Spark的水塘抽样 ?3. 简述DAGScheduler、TaskScheduler、SchedulerBackend实现原理 ?4. 简述Spark client提交application后,接下来的流程 ?5. 简述Spark的几种部署方式(详解) ?6. 简述在Yarn-client情况下,Driver此时在哪 ?原创 2024-06-16 01:44:03 · 890 阅读 · 0 评论 -
Spark 面试题(十一)
1. 简述reduceByKey和groupByKey的区别和作用 ?2. 简述reduceByKey和reduce的区别 ?3. 简述使用reduceByKey出现数据倾斜怎么办 ?4. 简述Spark SQL的执行原理 ?5. 简述Spark checkpoint ?6. 简述Spark SQL与DataFrame的使用 ?原创 2024-06-16 01:43:53 · 601 阅读 · 0 评论 -
Spark 面试题(十)
1. 简述Spark参数(性能)调优 ?2. 简述Spark怎么基于内存计算的 ?3. 简述什么是RDD(对RDD的理解)?RDD有哪些特点?说下知道的RDD算子 ?4. 简述RDD属性 ?5. 简述RDD的缓存级别 ?6. 简述Spark广播变量的实现和原理 ?原创 2024-06-15 00:01:36 · 1018 阅读 · 0 评论 -
Spark 面试题(九)
1. 简述Spark的DAG以及它的生成过程 ?2. 简述DAGScheduler如何划分?3. 简述Spark容错机制( 重点 ) ?4. 简述RDD的容错机制 ?5. 简述Executor如何内存分配 ?6. 简述Spark的batchsize,怎么解决小文件合并问题 ?原创 2024-06-15 00:01:26 · 668 阅读 · 0 评论 -
Spark 面试题(八)
1. 简述Stage内部逻辑 ?2. 简述为什么要根据宽依赖划分Stage ?3. 简述为什么要划分Stage ?4. 简述Stage的数量等于什么 ?5. 简述对RDD、DAG 和Task的理解 ?6. 简述DAG为什么适合Spark ?原创 2024-06-14 00:14:13 · 833 阅读 · 0 评论 -
Spark 面试题(七)
1. Spark中的Transform和Action,为什么Spark要把操作分为Transform 和Action?常用的列举一些,说下算子原理 ?2. 简述Spark的哪些算子会有shuGle过程 ?3. 简述Spark有了RDD,为什么还要有Dataform和DataSet ?4. 简述Spark的RDD、DataFrame、DataSet、DataStream区别 ?5. 简述Spark的Job、Stage、Task分别介绍下,如何划分 ?6. 简述Application 、job、Sta原创 2024-06-14 00:14:05 · 883 阅读 · 0 评论 -
Spark 面试题(六)
1. 简述Spark中7种存储级别 ?2. 简述Spark分哪几个部分(模块)?分别有什么作用(做什么,自己用过哪些,做过什么) ?3. RDD的宽依赖和窄依赖,举例一些算子 ?4. Spark SQL的GroupBy会造成窄依赖吗 ?5. 简述GroupBy是行动算子吗 ?6. 简述Spark的宽依赖和窄依赖,为什么要这么划分 ?原创 2024-06-13 00:09:40 · 716 阅读 · 0 评论 -
Spark 面试题(五)
1. 简述为什么要Spark ShuGle ?2. 简述Spark为什么适合迭代处理 ?3. 简述Spark数据倾斜问题,如何定位,解决方案 ?4. Spark的stage如何划分?在源码中是怎么判断属于ShuGle Map Stage或Result Stage的 ?5. 简述Spark join在什么情况下会变成窄依赖 ?6. 简述Spark的内存模型( 重要详细 ) ?原创 2024-06-13 00:09:34 · 657 阅读 · 0 评论 -
Spark 面试题(四)
1. 简述Spark join的分类 ?2. 简述Spark map join的实现原理 ?3. 简述Spark ShuGle及其优缺点 ?4. 简述Apache Spark 中的 RDD 是什么 ?5. 简述SparkContext 与 SparkSession之间的区别是什么 ?6. 简述什么情况下会产生Spark ShuGle ?原创 2024-06-12 00:46:20 · 1338 阅读 · 0 评论 -
Spark 面试题(三)
1. 简述Spark on YARN运行过程 ?2. 简述YARN-Client 与 YARN-Cluster 区别 ?3. 简述Spark的yarn-cluster涉及的参数有哪些 ?4. 简述Spark提交job的流程 ?5. 简述Spark的阶段划分流程 ?6. 简述Spark处理数据的具体流程 ?原创 2024-06-12 00:46:08 · 1052 阅读 · 0 评论 -
Spark 面试题(二)
1. 简述Spark的作业运行流程是怎么样的 ?2. 简述Spark源码中的任务调度 ?3. 简述Spark作业调度 ?4. 简述spark部署模式(资源调度模式) ?5. 简述Spark的使用场景 ?6. 简述Spark on Standalone运行过程 ?原创 2024-06-11 08:39:36 · 916 阅读 · 0 评论 -
Spark 面试题(一)
1. 简述什么是Spark ?2. 简述Spark部署模式 ?3. 简述Spark主要功能与特性 ?4. 简述Spark对MapReduce优势 ?5. 简述Spark的任务执行流程 ?6. 简述Spark的运行流程 ?原创 2024-06-11 08:39:19 · 1024 阅读 · 0 评论 -
Hive 面试题(十)
1. 为什么内部表的删除,就会将数据全部删除,而外部表只删除表结构? 为什么用外部表更好 ?2. 简述Hive建表语句?创建表时使用什么分隔符 ?3. 简述Hive删除语句外部表删除的是什么 ?4. 简述Hive导入数据的五种方式是什么?举例说明 ?5. 简述row_number(),rank()和dense_rank()的区别 ?6. 简述请说明hive中 Sort By,Order By,Cluster By,Distrbute By各代表什么意思?7. 写出Hive中split、coale原创 2024-06-10 09:32:27 · 915 阅读 · 0 评论 -
Hive 面试题(九)
1. 简述Hive的开窗函数有哪些 ?2. 简述Hive存储数据吗 ?3. 简述row_number,rank,dense_rank的区别 ?4. 简述Hive count(distinct)有几个reduce,海量数据会有什么问题 ?5. 简述一条HQL从代码到执行的过程 ?6. 简述前后函数 lag(expr,n,defval)、lead(expr,n,defval) ?7. 简述头尾函数:FIRST_VALUE(expr),LAST_VALUE(expr) ?原创 2024-06-10 09:32:14 · 624 阅读 · 0 评论 -
Hive 面试题(八)
1. 简述Hive的三种自定义函数是什么?实现步骤与流程?它们之间的区别?作用是什么 ?2. 简述Hive的存储引擎和计算引擎 ?3. 简述Hive的count的用法 ?4. 简述Hive的union和union all的区别 ?5. 简述Hive Join 的原理与机制 ?6. 简述Hive如何优化join操作 ?7. 简述什么是Hive的map join ?原创 2024-06-09 08:07:05 · 1037 阅读 · 0 评论 -
Hive 面试题(七)
1. 简述Hive 动态分区和静态分区的区别 + 使用场景 ?2. 简述Hive 语句执行顺序 ?3. 简述Hive中MR(map reduce)、Tez和Spark执行引擎对比 ?4. 简述为什么任务执行的时候只有一个reduce ?5. 简述Hive为什么要分桶 ?6. 简述如何使用分桶 ?7. 简述Hive如果不用参数调优,在map和reduce端应该做什么 ?原创 2024-06-09 08:06:55 · 1119 阅读 · 0 评论