sql怎么实现取当前数据以及累计7天数据_年薪60万+大佬吐血整理字节跳动大数据面试真题...

最新推荐文章于 2022-03-21 16:45:32 发布

weixin_39943992

最新推荐文章于 2022-03-21 16:45:32 发布

阅读量886

点赞数

文章标签： sql怎么实现取当前数据以及累计7天数据

本文链接：https://blog.csdn.net/weixin_39943992/article/details/111375847

版权

字节的面试难度一直很高，所以一直是我想攻克的目标，定下这个目标后就去准备收集了几十个字节实际面经，还包括面试前都需要做哪些准备。只能说是工欲善其事必先利其器，经过这些周全的准备，最终的面试还是很顺利的。

感谢为我提供以下这些面经的“大数据那些事”公众号的朋友们，现在把我整理的面试经验分享出来，也是希望能帮助到更多朋友，不只是面字节，把下边的内容都搞定的话，其他大厂也不成问题。

PART

字节跳动面试提醒

字节的技术面试会涉及到算法、数据结构和系统设计，面试前需要你做的准备具体如下：

1、提前温习软件工程的核心概念，例如: 如何从一个需求落实到一个系统设计，如何衡量两个不同设计的好坏，如何在各种限制下(人员、时间、资源等)选择其中更合适的设计，以及提升该设计的可拓展性等。

2、在白板上练习算法题目，写出清晰、简洁、bug free的代码,，并衡量时间和空间复杂度以及可能存在的副作用。

3、鼓励即时跟面试官沟通你的想法，一个好的解法往往是思维逻辑的展现，所以与面试官沟通思考的过程是非常重要的，这样在沟通的过程中你也能拿到更多关于问题本身的信息。

4、尝试用不同的方法，思路或数据结构去解决同一个问题，并且衡量不同解法之间的优劣。

5、需要的是可执行的代码，而不是伪代码。

6、需要你能掌握面试岗位对应的技术领域相关知识。

关于算法：

字节的面试一定会考察算法(手写代码或者上机敲代码，可执行代码)，算法题大部分就是考察动态规划、链表、字符串、对称二叉树、数组墙等，一定要在这几个方面做好准备

https://leetcode-cn.com/explore/featured/card/bytedance/ (这是字节专用题库，如果你能刷够200道，算法面试就十分稳了，没时间的话至少刷60道题，选择简单或中等难度就行，不用刷困难级别的)

注明：字节数据开发岗的算法是比较基础的，所以只需要提前刷下相应初级的算法题找下感觉，然后结合面经中的算法题即可，重点在于数开的基础和相应的项目，因每个人的项目不同，所以记录下来的题目都为通用题，还有部分结合个人项目的问题参考价值不高，好好准备自己简历中提及的项目即可。

PART

实际面试题

一面：面试感觉面试官很友好，面了大概40多分钟吧。开始介绍项目，然后写了一道算法题，题目是：驼峰命名转换。然后问了一些技术细节，最后问我有没有啥想问的

一面、二面

二叉树s打印

用List和Map实现LRU

mysql的引擎有几种，各有什么不同

mysql事物级别

mysql事物级别如何实现的

一二面：

1.有一个完全二叉树，给定其中两个节点，代码实现：两个节点哪个是父节点或者其父节点是什么？

2.数据结构会问的比较多

3.集合有哪些？ArrayList和LinkedList有什么区别？

4.讲一下最近的一个项目(根据架构开始问业务难点)(我的是离线数仓项目)

5.hive两个表join，过滤条件在on后边和where后边有哪些不同？

6.碰到哪些问题，怎么解决的？hive做了哪些优化，优化后有哪些不同？

一二面：

问了挺多hive中的参数设置，大表join大表的解决思路，数据分块，还有一个是离线数据怎么保证及时性；还做了个列转行然后行转列的题，我说了两种解决方案，第二种方案，有一个函数没记清，拼接concat_ws函数

一面：

二度好友关系实现，hive优化，数据倾斜如何解决，项目的一些经验

二面详细问了一些项目经验，一个二维数组里查找数字是否包含的算法，数据倾斜的原理和如何解决

一二面：

问了图中是否存在环

奇数升序偶降序

hashmap相关的原理rehash改进

LRU缓存淘汰策略，提出解决方案。

一二三面：

1面很简单，就是问些基本知识，mapreduce过程啊，hbase读写流程之类的，hive sql优化，和项目有关的不多。coding考的hql的行转列，比较简单。

2面是团队leader，主要对于项目细节的问的比较多，主要考察候选人的项目能力，项目参与深度，思考方式等，算是看整体能力，不管是架构能力还是其他能力的体现。

3面是他们部的leader。网上还能搜到他的博客，算是对候选人整体能力和过往经历的一个考量。其实我觉得boss面基本就是进一步了解这个人是一个什么样的人。

一二面：

基础知识：

java 多态

hive map side join

hive distribute by

flink checkpoint exactly once

mapreduce流程

mapreduce 100亿个数取top10

hive sql：

计算连续登陆超过5天的人

coding：

实现微信随机红包

找到根节点到叶子结点值之和为n的所有路径

三面：

clickhouse merge tree特性，distributed是否保存数据

mysql索引，联合索引 abc，查询条件里abc的索引会命中吗

mysql+redis 保证数据一致性

coding：两个链表存在交点，找这个交点

一面：

1.项目经历3个挨个问，flink的机制，乱序处理，业务架构；数据仓库构建基础，spark，hive的执行过程，调优；BI系统的架构设计，负责模块；

2.sql fulljoin的功能的实现；rownumber的底层实现；

3. 输入正整数n和k,n>=k，找出[1,n]范围内按照字典排序的最小第k个值。

一面：

1. 项目经历，细节；sparkstreaming如何实现容错，遇到问题怎么解决，spark mr执行过程，hdfs读写过程，出错处理等

2. 判断是是否是BST

一二面：

1.hive的range分区

2.二叉树的广度深度遍历

3.kafka有序

4.shuffle过程

5.合并两个不同规范的城市表

6.微信红包

7.连续5天登陆

8.一致性hash

9.hashmap

10.连表倒数第n个节点

11.排序K个大小为N的数组

12.项目

一面：

1.字典序的第k大数字

2.链表反序

3.spark的数据倾斜

4.聊mysql和kafaka相关的

5.聊相关项目

二面(数据治理)

hash 表实现原理

hashmap 底层实现原理

Python 传参方式

聊hive,sql相关的

项目相关的问题，项目成果介绍，数据治理怎么做

一面：

先自我介绍，然后介绍项目，问一些项目里的点

flink exactly-once

flink sql：count distinct 求uv场景，同一个设备刷了很多记录

算法题：最长子数组和

二面：

介绍项目，以及项目中的一些优化情况

算法题：给一个矩阵，矩阵每一行单调递增，求矩阵第K个数

三面：

结合项目问一下离线实时sql优化问题

职业规划

sql题：新访问，留存指标如何计算

HR面：

自我介绍

介绍项目，及在项目中碰到的问题，承担的角色

为什么离职，是否有收到其它offer

期望薪资等

一面：

自我介绍

平时写sql还是spark python？

针对sql的问题

原始表格字段

班级学号科目分数

1. 求每科每班前五名

写出sql并解释底层mr实现过程

2. 求每个班级总分最高的前五名

写出sql并解释底层mr实现过程

如果是班级中某个人某个学科有多个数据(有补考的) 选择最高分还是实现第二个需求

3 针对上面的sql

sql语句能不能优化

数据倾斜是什么针对本案例该怎么处理

统计相关问题

针对安卓app和苹果app 两个平台的统计：

总浏览事件/总浏览人数=人均浏览时长

两个平台的人均浏览时长都提高了但是总的人均浏览时长反而降低了怎么解释这个问题(辛普森悖论)

一面：

描述：

给你一个数字n(n < 1e9), 再给你一个数字k(k< n), 要求你找到1, 2, 3, ... n按照字典序排序后, 第k个的数字;

如, n = 15, k = 7;

那1 ~ 15按照字典序排序为: 1, 10, 11, 12,13, 14, 15, 2, 3, 4, 5, 6, 7, 8, 9;

则答案为15;(笔试题)

聊数开相关的基础问题

二面：(笔试题)

select a, count(distinct b) num from A group by a ; 解析成MR操作

聊的是数据治理相关的内容

一面：

先自我介绍，然后介绍项目，问一些项目里的点

flink exactly-once

flink sql：count distinct 求uv场景，同一个设备刷了很多记录

算法题：最长子数组和

二面：

介绍项目，以及项目中的一些优化情况

算法题：给一个矩阵，矩阵每一行单调递增，求矩阵第K个数

三面：

结合项目问一下离线实时sql优化问题

职业规划

sql题：新访问，留存指标如何计算

HR面：

自我介绍

介绍项目，及在项目中碰到的问题，承担的角色

为什么离职，是否有收到其它offer

期望薪资等

一面：

算法：

给2个有序数组，合并成一个有序数组

延伸：给n个有序数组，合并成一个有序数组

sql:

班级学号科目分数

求某个班级总分最高的前五名

其他：结合个人经历来聊的暂时只记得这些

精准一次性消费

数据倾斜

二面：

主要问项目中数据倾斜，是否丢数据，问了一个算法，一个SQL

算法是有序数组查找目标值，我的做法是二分查找

sql是给用户的观看视频的时长，统计观看时间在0-1分钟的用户数，1-10分钟的用户数

一面：

算法：

给2个有序数组，合并成一个有序数组

延伸：给n个有序数组，合并成一个有序数组

sql:

浮点数取整和基本的分组计算

聊个人项目相关的东西

一面：

1、编程：两个有序数组的合并(二路归并)(编写代码、分析复杂度)

拓展，K个有序数组的合并，说说解决方案，分析复杂度。

2、Spark与MapReduce速度差异的原因

3、Spark任务和Spark Streaming任务的差别

4、问项目相关

5、写SQL：

6、Linux的一些基本操作指令。

二面：

1、先大概说了下项目的情况

2、问题：两个服务端的接口，有这样一个定义：

平均耗时=(全部请求的总处理时间)/(请求次数)

两个接口经过了各自的优化，使得每个服务接口的平均响应时间都变短了一点，再看整个服务端的时候，发现整个服务端的平均响应时间变长了(假设该服务端是有这两个接口)，这个怎么理解。

3、写SQL：

4、JAVA平时开发用到什么数据结构，如MAP有哪些

5、HashMap的原理，JDK1.8版本后做了哪些优化，为什么要这么优化。

6、JAVA开发遇到过哪些报错，比如内存溢出，怎么解决。

一面：

1、项目，离职原因。

2、如果你负责抖音数仓，如何设计。

3、如果负责用户业务，如何建模。

4、建模方法，优缺点。

5、开发推荐系统和java系统有什么区别。

6、hive的执行流程

7、sql：表名：test,字段(user_id1,user_id2,time)求这个表里，互相关注的用户有多少？

一面：

1.详细介绍项目

2.distinct 和 group by有什么区别？在哪种情况下使用group by性能会更优？

3.mysql的联合索引机制

4.mysql的主从节点数据复制机制，可以开启主从双写吗？会有什么问题？

5.如何理解flink的watermark，当水位线涨到window 的 endTime时，如果后续还有数据过来，窗口还会继续被触发吗？

6.如何保证flink端到端的exactly once语义？

7.java线程池的实现原理

8.详细描述CMS垃圾回收器和G1垃圾回收器，哪种场景下该使用CMS，哪种场景下使用G1？(具体到内存大小是多少G)

9.算法题：微信红包

HR面：

1.技术面后，你觉得面试过程以及我们的面试官怎么样？(价值观认同,年轻热血实干)

2.简述一下过往的项目经历,在其中担任了什么角色

3.最有成就感的项目是什么(个人发挥了什么作用,取得什么成果)

4.遇到过什么比较棘手的问题?(什么问题,怎么解决的,结果如何)

5.沟通协作方面的能力(举例说明)

6.你为什么会从上一家公司离职？(看好新平台,希望实现个人的价值,或其他因素)

7.你对我们公司有了解嘛？

8.你对于自己近几年的职业规划是怎么样的？

9.你现在手上有其他的offer嘛？后续会继续看机会吗？(据实说)

10.你预计可以什么时候入职(越快越好)

11.你过往的绩效评级情况是怎么样的,目前的薪酬情况,期望薪资多少

PART

总结

面试形式：网上直接写代码，或者笔试，聊天的形式都有可能；3轮技术面+1轮hr面。

如果是视频面试，请提前10分钟进入链接，检查好耳机和摄像头

总结：

1.面试过程中题目一定要写出多种答案，面试官可能会问每种答案的优缺点，如果面试过程中有回答不上来的题目，千万不要直接回答：不知道！可以请教面试官，如：这个地方是这样吗？有哪些书籍或者资料可以查询？哪怕只有一般的思路，也要讲出来，和面试官一起切磋，面试官的目的不是难倒你，而是想考察你的思路。

2.面试结束时，面试官一般会问：你有什么问题问我的吗？(请不要问一些技术无关的问题，比如：几点下班，团队现在多少人等；这些问题可以留给我或者hr来解答。最好是根据面试情况，问一下技术方向的话题，比如性能优化你回答的不好，问面试官，如何提高这方面的技术，尽量表现出对技术的追求，面试官会喜欢的)

3.无论你出于什么目的参加面试，请尊重面试机会，面试过程中把最好的素养和丰富的知识展现出来，大厂每次面试，都会留档，面试过程愉快和良好，对以后的跳槽也是有好处的。面试的好，谈薪的时候，才有可能谈到更高的薪资

4.上一轮面试没有回答出来的题目，下一轮面试很有可能再次考到，请在等待下一轮面试官的过程中，再想一下最优解(如果2次面试分开面试的，回去一定好好复习上轮面试回答不好的题目，然后做一下拓展)，有人选3次都有问同一道题

5.最近很多人选，反复考到性能优化的题目，请好好复习，祝面试顺利！

完

扫码入群和大佬们一起讨论技术

该公众号开源为大家解决大数据企业级遇到的各种问题，也欢迎各位大佬积极加入开源共享(共同面对大数据领域各种老大难问题)

来稿请投邮箱：miaochuanhai@126.com

weixin_39943992

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫