大数据面试题
文章平均质量分 80
分享企业真实面试题,帮助更多IT伙伴
The博宇
要加油,要努力,要不负众望!
展开
-
Spark常问面试题---项目总结
数据经flum的抽取,将各个埋点的日志数据传入hive(进行处理sparksql处理)作为ods层,然后对ods层的数据进行清洗脱敏等然后当作tmp临时表,然后将tmp表进行合并生成dwd公共数据明细层,然后以dwd为基础,按天进行轻度汇总,粒度是一行信息代表的行为,例如一天下单的次数,以dws数据层为基础,按主题进行汇总,一个项目可以分为很多的主题,进行汇总,例如某个用户从注册开始到现在下单次数等,ads为各种统计表提供数据。我在这个项目主要清洗的式日志数据,日志数据传过来的json格式。原创 2024-12-03 20:49:19 · 1593 阅读 · 0 评论 -
大数据面试题--day01
HashMap是基于哈希表的Map接口的非同步实现。HashMap底层就是一个数组结构,数组中的每一项又是一个链表。数组+链表结构,新建一个HashMap的时候,就会初始化一个数组。Entry就是数组中的元素,每个Entry其实就是一个key-value的键值对,它持有一个指向下一个元素的引用,这就构成了链表,HashMap底层将key-value当成一个整体来处理,这个整体就是一个Entry对象。原创 2024-11-21 20:55:42 · 398 阅读 · 0 评论 -
java创建线程的4种方式
在Java中,创建线程有多种方式,每种方式都有其适用场景和优缺点。原创 2024-11-18 20:17:55 · 1682 阅读 · 0 评论 -
大数据面试题--kafka夺命连环问(后10问)
前15问博客链接:大数据面试题--kafka夺命连环问-CSDN博客16、kafka是如何做到高效读写?Kafka 实现高效读写主要依赖于以下几个关键机制:(一)分区技术与并行处理Kafka 作为分布式集群,采用分区技术将主题划分为多个分区。每个分区可分布在不同节点,生产者能并行向各分区写入数据,消费者组内多个消费者也可同时从不同分区读取数据,极大提升了系统的并行度和吞吐量。例如,一个主题有多个分区,不同的生产者线程或进程可针对不同分区独立发送消息,而多个消费者可并行处理不同分区的数据原创 2024-11-12 08:53:51 · 1162 阅读 · 0 评论 -
大数据面试题--kafka夺命连环问(前15问)
kafka面试题原创 2024-11-09 16:38:24 · 1537 阅读 · 0 评论 -
Hive面试题-- hive中查询用户连续三天登录记录的实现与解析
在数据分析中,经常会遇到需要分析用户行为连续性的问题,比如查询用户连续三天登录的情况。本文将基于 Hive 来解决这个问题,并详细解释每一步的代码。原创 2024-11-07 20:55:56 · 696 阅读 · 0 评论 -
Hive面试题-- 查询各类型专利 top10 申请人及专利申请数
在数据处理中,尤其是涉及到专利信息等复杂数据时,Hive 是一个强大的工具。本文将详细介绍如何使用 Hive 查询语句来获取各类型专利 top10 申请人以及他们对应的专利申请数,以下是基于给定的t_patent_detail表结构的分析和查询步骤。原创 2024-11-07 20:35:14 · 563 阅读 · 0 评论 -
网易SQL面试题
- 举例如下:-- 输入1001 陈奕迅 十年 202410111002 陈奕迅 十年 202410111003 陈奕迅 十年 202410111004 陈奕迅 十年 202410111001 陈奕迅 富士山下 202410111002 陈奕迅 好久不见 202410111003 陈奕迅 好久不见 20241011。原创 2024-11-06 20:45:23 · 615 阅读 · 0 评论 -
mysql如何批量删除海量数据
一个表有1亿6000万的数据,有一个自增ID。最大值就是1亿6000万,需要删除大于250万以后的数据,有什么办法可以快速删除?看到mysql文档有一种解决方案:Use删除大表的多行数据时,会超出innod block table size的限制,最小化的减少锁表的时间的方案是:1、选择不需要删除的数据,并把它们存在一张相同结构的空表里2、重命名原始表,并给新表命名为原始表的原始表名3、删掉原始表。原创 2024-11-06 20:40:28 · 1071 阅读 · 0 评论 -
大数据面试题-group by | order by| distribute by| sort by| cluser by | partition by 的区别
这个题目在大数据的面试中比较常见,属于所谓的八股文,考察面试者的基本功。原创 2024-11-04 16:32:37 · 843 阅读 · 0 评论 -
Spark中的常见算子
Spark中的常见算子---触发算子、转换算子。哪些算子能触发shuffle过程原创 2024-11-01 09:35:04 · 1882 阅读 · 0 评论 -
SQL面试题
这时候我们就需要判断每个用户的逾期天数是否小于所有配置的逾期天数,如果是则记为1,这时候会出现一个用户对应多个1,我们要取对应配置逾期天数最小的那一条,怎么办?看到多张表,先进行JOIN,但是一眼看去好像只能用逾期天数进行关联,可以又无法直接关联,那么就笛卡尔积(考虑到配置表很小)按照uid进行分组,配置逾期天数进行排序,对标志位进行求和,最后取开窗结果为1的行记录即可。原创 2024-10-31 22:44:25 · 316 阅读 · 0 评论 -
hadoop面试题
12、大数据是由结构化和非结构化数据组成的。8、hadoop包含的四大模块分别是: Hadoop common 、( HDFS ) 、( Mapreduce )、( yarn )。分而治之:就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果。13、大数据关键技术两大核心技术是:( 分布式存储或(HDFS) )和( 分布式处理或(MapReduce) )。原创 2024-10-31 11:02:47 · 982 阅读 · 0 评论 -
finebi面试题精选
bi工程师也称为一个不可缺少的大数据分支出来的职业,下面精选了20道finebi面试题,希望对小伙伴们有所帮助。原创 2024-10-13 22:46:00 · 873 阅读 · 0 评论 -
面试都喜欢问 Redis,为什么?因为他快吗?
通过了解 Redis 为什么这么快,相信我们已经很熟悉 Redis 的作用了,那么我们 Redis 的学习才刚刚开始,使用、精通、钻研将是我们不断的话题。原创 2024-10-09 20:22:12 · 1274 阅读 · 0 评论 -
大数据真实面试题---SQL
大数据真实SQL面试题解析原创 2024-09-10 11:50:52 · 985 阅读 · 0 评论 -
大数据面试题———SQL
这种方法在逻辑上更简单,但它可能在性能上不如窗口函数,特别是在处理大量数据时,因为自连接需要对数据进行多次扫描。:这种方法是最直观和最常用的,特别是在需要处理大量数据时,窗口函数可以有效地利用数据库的优化和并行处理能力。1、题目17:车辆每天上传N条数据,要求获得每日最后一条数据,请用至少三种方式写出来,并说明三种方式的区别。来为每个车辆每天的数据分配一个序号,其中序号为1的即为每天的最后一条数据。时间戳,然后通过子查询将这些时间戳与原表连接,以获取对应的记录。为每个分组内的记录分配一个唯一的序号。原创 2024-09-10 20:06:28 · 385 阅读 · 0 评论
分享