sql怎么实现取当前数据以及累计7天数据_年薪60万+大佬吐血整理字节跳动大数据面试真题...

字节的面试难度一直很高,所以一直是我想攻克的目标,定下这个目标后就去准备收集了几十个字节实际面经,还包括面试前都需要做哪些准备。只能说是工欲善其事必先利其器,经过这些周全的准备,最终的面试还是很顺利的。

感谢为我提供以下这些面经的“大数据那些事”公众号的朋友们,现在把我整理的面试经验分享出来,也是希望能帮助到更多朋友,不只是面字节,把下边的内容都搞定的话,其他大厂也不成问题。

01

PART

字节跳动面试提醒

字节的技术面试会涉及到算法、数据结构和系统设计,面试前需要你做的准备具体如下:

1、提前温习软件工程的核心概念,例如: 如何从一个需求落实到一个系统设计,如何衡量两个不同设计的好坏,如何在各种限制下(人员、时间、资源等)选择其中更合适的设计,以及提升该设计的可拓展性等。

2、在白板上练习算法题目,写出清晰、简洁、bug free的代码,,并衡量时间和空间复杂度以及可能存在的副作用。

3、鼓励即时跟面试官沟通你的想法,一个好的解法往往是思维逻辑的展现,所以与面试官沟通思考的过程是非常重要的,这样在沟通的过程中你也能拿到更多关于问题本身的信息。

4、尝试用不同的方法,思路或数据结构去解决同一个问题,并且衡量不同解法之间的优劣。

5、需要的是可执行的代码,而不是伪代码。

6、需要你能掌握面试岗位对应的技术领域相关知识。

关于算法:

字节的面试一定会考察算法(手写代码或者上机敲代码,可执行代码),算法题大部分就是考察动态规划、链表、字符串、对称二叉树、数组墙等,一定要在这几个方面做好准备

https://leetcode-cn.com/explore/featured/card/bytedance/  (这是字节专用题库,如果你能刷够200道,算法面试就十分稳了,没时间的话至少刷60道题,选择简单或中等难度就行,不用刷困难级别的)

注明:字节数据开发岗的算法是比较基础的,所以只需要提前刷下相应初级的算法题找下感觉,然后结合面经中的算法题即可,重点在于数开的基础和相应的项目,因每个人的项目不同,所以记录下来的题目都为通用题,还有部分结合个人项目的问题参考价值不高,好好准备自己简历中提及的项目即可。

02

PART

实际面试题

一面:面试感觉面试官很友好,面了大概40多分钟吧。开始介绍项目,然后写了一道算法题,题目是:驼峰命名转换。然后问了一些技术细节,最后问我有没有啥想问的

一面、二面

二叉树s打印

用List和Map实现LRU

mysql的引擎有几种,各有什么不同

mysql事物级别

mysql事物级别如何实现的

一二面:

1.有一个完全二叉树,给定其中两个节点,代码实现:两个节点哪个是父节点或者其父节点是什么?

2.数据结构会问的比较多

3.集合有哪些?ArrayList和LinkedList有什么区别?

4.讲一下最近的一个项目(根据架构开始问业务难点)(我的是离线数仓项目)

5.hive两个表join,过滤条件在on后边和where后边有哪些不同?

6.碰到哪些问题,怎么解决的?hive做了哪些优化,优化后有哪些不同?

一二面:

问了挺多hive中的参数设置,大表join大表的解决思路,数据分块,还有一个是离线数据怎么保证及时性;还做了个列转行然后行转列的题,我说了两种解决方案,第二种方案,有一个函数没记清,拼接concat_ws函数

一面:

二度好友关系实现,hive优化,数据倾斜如何解决,项目的一些经验

二面详细问了一些项目经验,一个二维数组里查找数字是否包含的算法,数据倾斜的原理和如何解决

一二面:

问了图中是否存在环

奇数升序偶降序

hashmap相关的原理rehash改进

LRU缓存淘汰策略,提出解决方案。

一二三面:

1面很简单,就是问些基本知识,mapreduce过程啊,hbase读写流程之类的,hive sql优化,和项目有关的不多。coding考的hql的行转列,比较简单。

2面是团队leader,主要对于项目细节的问的比较多,主要考察候选人的项目能力,项目参与深度,思考方式等,算是看整体能力,不管是架构能力还是其他能力的体现。

3面是他们部的leader。网上还能搜到他的博客,算是对候选人整体能力和过往经历的一个考量。其实我觉得boss面基本就是进一步了解这个人是一个什么样的人。

一二面:

基础知识:

java 多态

hive map side join

hive distribute by

flink checkpoint exactly once

mapreduce流程

mapreduce 100亿个数取top10

hive sql:

计算连续登陆超过5天的人

coding:

实现微信随机红包

找到根节点到叶子结点值之和为n的所有路径

三面:

clickhouse merge tree特性,distributed是否保存数据

mysql索引,联合索引 abc,查询条件里abc的索引会命中吗

mysql+redis 保证数据一致性

coding:两个链表存在交点,找这个交点

一面:

1.项目经历3个挨个问,flink的机制,乱序处理,业务架构;数据仓库构建基础,spark,hive的执行过程,调优;BI系统的架构设计,负责模块;

2.sql fulljoin的功能的实现;rownumber的底层实现;

3. 输入正整数n和k,n>=k,找出[1,n]范围内按照字典排序的最小第k个值。

一面:

1. 项目经历,细节;sparkstreaming如何实现容错,遇到问题怎么解决,spark mr执行过程,hdfs读写过程,出错处理等

2. 判断是是否是BST

一二面:

1.hive的range分区

2.二叉树的广度深度遍历

3.kafka有序

4.shuffle过程

5.合并两个不同规范的城市表

6.微信红包

7.连续5天登陆

8.一致性hash

9.hashmap

10.连表倒数第n个节点

11.排序K个大小为N的数组

12.项目

一面:

1.字典序的第k大数字

2.链表反序

3.spark的数据倾斜

4.聊mysql和kafaka相关的

5.聊相关项目

二面(数据治理)

hash 表实现原理

hashmap 底层实现原理

Python 传参方式

聊hive,sql相关的

项目相关的问题,项目成果介绍,数据治理怎么做

一面:

先自我介绍,然后介绍项目,问一些项目里的点

flink exactly-once

flink sql:count distinct 求uv场景,同一个设备刷了很多记录

算法题:最长子数组和

二面:

介绍项目,以及项目中的一些优化情况

算法题:给一个矩阵,矩阵每一行单调递增,求矩阵第K个数

三面:

结合项目问一下离线实时sql优化问题

职业规划

sql题:新访问,留存指标如何计算

HR面:

自我介绍

介绍项目,及在项目中碰到的问题,承担的角色

为什么离职,是否有收到其它offer

期望薪资等

一面:

自我介绍

平时写sql还是spark  python?

针对sql的问题

    原始表格字段 

    班级 学号 科目 分数

    1. 求每科每班前五名

        写出sql并解释底层mr实现过程

    2. 求每个班级总分最高的前五名

        写出sql并解释底层mr实现过程

        如果是班级中某个人某个学科有多个数据(有补考的) 选择最高分 还是实现第二个需求

    3 针对上面的sql

        sql语句能不能优化

        数据倾斜是什么 针对本案例 该怎么处理

统计相关问题

针对安卓app和苹果app 两个平台的统计:

    总浏览事件/总浏览人数=人均浏览时长

两个平台的人均浏览时长都提高了  但是总的人均浏览时长反而降低了  怎么解释这个问题(辛普森悖论)

一面:

描述:

给你一个数字n(n < 1e9), 再给你一个数字k(k< n), 要求你找到1, 2, 3, ... n按照字典序排序后, 第k个的数字;

如, n = 15, k = 7;

那1 ~ 15按照字典序排序为: 1, 10, 11, 12,13, 14, 15, 2, 3, 4, 5, 6, 7, 8, 9;

则答案为15;(笔试题)

聊数开相关的基础问题

二面:(笔试题)

select a, count(distinct b) num from A group by a ;  解析成MR操作

聊的是数据治理相关的内容

一面:

先自我介绍,然后介绍项目,问一些项目里的点

flink exactly-once

flink sql:count distinct 求uv场景,同一个设备刷了很多记录

算法题:最长子数组和

二面:

介绍项目,以及项目中的一些优化情况

算法题:给一个矩阵,矩阵每一行单调递增,求矩阵第K个数

三面:

结合项目问一下离线实时sql优化问题

职业规划

sql题:新访问,留存指标如何计算

HR面:

自我介绍

介绍项目,及在项目中碰到的问题,承担的角色

为什么离职,是否有收到其它offer

期望薪资等

一面:

算法:

给2个有序数组,合并成一个有序数组

延伸:给n个有序数组,合并成一个有序数组

sql:

班级 学号 科目 分数

求某个班级总分最高的前五名

其他:结合个人经历来聊的暂时只记得这些

精准一次性消费

数据倾斜

二面:

主要问项目中数据倾斜,是否丢数据,问了一个算法,一个SQL

算法是有序数组查找目标值,我的做法是二分查找

sql是给用户的观看视频的时长,统计观看时间在0-1分钟的用户数,1-10分钟的用户数

一面:

算法:

给2个有序数组,合并成一个有序数组

延伸:给n个有序数组,合并成一个有序数组

sql:

浮点数取整和基本的分组计算

聊个人项目相关的东西

一面:

1、编程:两个有序数组的合并(二路归并)(编写代码、分析复杂度)

拓展,K个有序数组的合并,说说解决方案,分析复杂度。

2、Spark与MapReduce速度差异的原因

3、Spark任务和Spark Streaming任务的差别

4、问项目相关

5、写SQL:

6、Linux的一些基本操作指令。

二面:

1、先大概说了下项目的情况

2、问题:两个服务端的接口,有这样一个定义:

平均耗时=(全部请求的总处理时间)/(请求次数)

两个接口经过了各自的优化,使得每个服务接口的平均响应时间都变短了一点,再看整个服务端的时候,发现整个服务端的平均响应时间变长了(假设该服务端是有这两个接口),这个怎么理解。

3、写SQL:

4a094b8dc2721832bbebef160927b89d.png

4、JAVA平时开发用到什么数据结构,如MAP有哪些

5、HashMap的原理,JDK1.8版本后做了哪些优化,为什么要这么优化。

6、JAVA开发遇到过哪些报错,比如内存溢出,怎么解决。

一面:

1、项目,离职原因。

2、如果你负责抖音数仓,如何设计。

3、如果负责用户业务,如何建模。

4、建模方法,优缺点。

5、开发推荐系统和java系统有什么区别。

6、hive的执行流程

7、sql:表名:test,字段(user_id1,user_id2,time)求这个表里,互相关注的用户有多少?

一面:

1.详细介绍项目

2.distinct  和 group by有什么区别?在哪种情况下使用group by性能会更优?

3.mysql的联合索引机制

4.mysql的主从节点数据复制机制,可以开启主从双写吗?会有什么问题?

5.如何理解flink的watermark,当水位线涨到window 的 endTime时,如果后续还有数据过来,窗口还会继续被触发吗?

6.如何保证flink端到端的exactly once语义?

7.java线程池的实现原理

8.详细描述CMS垃圾回收器和G1垃圾回收器,哪种场景下该使用CMS,哪种场景下使用G1?(具体到内存大小是多少G)

9.算法题:微信红包

HR面:

1.技术面后,你觉得面试过程以及我们的面试官怎么样?(价值观认同,年轻热血实干)

2.简述一下过往的项目经历,在其中担任了什么角色

3.最有成就感的项目是什么(个人发挥了什么作用,取得什么成果)

4.遇到过什么比较棘手的问题?(什么问题,怎么解决的,结果如何)

5.沟通协作方面的能力(举例说明)

6.你为什么会从上一家公司离职?(看好新平台,希望实现个人的价值,或其他因素)

7.你对我们公司有了解嘛?

8.你对于自己近几年的职业规划是怎么样的?

9.你现在手上有其他的offer嘛?后续会继续看机会吗?(据实说)

10.你预计可以什么时候入职(越快越好)

11.你过往的绩效评级情况是怎么样的,目前的薪酬情况,期望薪资多少

03

PART

总结

面试形式:网上直接写代码,或者笔试,聊天的形式都有可能;3轮技术面+1轮hr面。

如果是视频面试,请提前10分钟进入链接,检查好耳机和摄像头

总结:

1.面试过程中题目一定要写出多种答案,面试官可能会问每种答案的优缺点,如果面试过程中有回答不上来的题目,千万不要直接回答:不知道!可以请教面试官,如:这个地方是这样吗?有哪些书籍或者资料可以查询?哪怕只有一般的思路,也要讲出来,和面试官一起切磋,面试官的目的不是难倒你,而是想考察你的思路。

2.面试结束时,面试官一般会问:你有什么问题问我的吗?(请不要问一些技术无关的问题,比如:几点下班,团队现在多少人等;这些问题可以留给我或者hr来解答 。最好是根据面试情况,问一下技术方向的话题,比如性能优化你回答的不好,问面试官,如何提高这方面的技术,尽量表现出对技术的追求,面试官会喜欢的)

3.无论你出于什么目的参加面试,请尊重面试机会,面试过程中把最好的素养和丰富的知识展现出来,大厂每次面试,都会留档,面试过程愉快和良好,对以后的跳槽也是有好处的。面试的好,谈薪的时候,才有可能谈到更高的薪资

4.上一轮面试没有回答出来的题目,下一轮面试很有可能再次考到,请在等待下一轮面试官的过程中,再想一下最优解(如果2次面试分开面试的,回去一定好好复习上轮面试回答不好的题目,然后做一下拓展),有人选3次都有问同一道题

5.最近很多人选,反复考到性能优化的题目,请好好复习,祝面试顺利!

扫码入群和大佬们一起讨论技术

bc26e4eb54e87fc2673317fed9f190d6.png

该公众号开源为大家解决大数据企业级遇到的各种问题,也欢迎各位大佬积极加入开源共享(共同面对大数据领域各种老大难问题)

来稿请投邮箱:miaochuanhai@126.com

已标记关键词 清除标记
表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
相关推荐
DirectX修复工具(DirectX Repair)是一款系统级工具软件,简便易用。本程序为绿色版,无需安装,可直接运行。 本程序的主要功能是检测当前系统的DirectX状态,如果发现异常则进行修复。程序主要针对0xc000007b问题设计,可以完美修复该问题。本程序中包含了最新版的DirectX redist(Jun2010),并且全部DX文件都有Microsoft的数字签名,安全放心。 本程序为了应对一般电脑用户的使用,采用了易用的一键式设计,只要点击主界面上的“检测并修复”按钮,程序就会自动完成校验、检测、下载、修复以及注册的全部功能,无需用户的介入,大大降低了使用难度。在常规修复过程中,程序还会自动检测DirectX加速状态,在异常时给予用户相应提示。 本程序适用于多个操作系统,如Windows XP(需先安装.NET 2.0,详情请参阅“致Windows XP用户.txt”文件)、Windows Vista、Windows 7、Windows 8、Windows 8.1、Windows 8.1 Update、Windows 10,同时兼容32位操作系统和64位操作系统。本程序会根据系统的不同,自动调整任务模式,无需用户进行设置。 本程序的V4.0版分为标准版、增强版以及在线修复版。所有版本都支持修复DirectX的功能,而增强版则额外支持修复c++的功能。在线修复版功能与标准版相同,但其所需的数据包需要在修复时自动下载。各个版本之间,主程序完全相同,只是其配套使用的数据包不同。因此,标准版和在线修复版可以通过补全扩展包的形式成为增强版。本程序自V3.5版起,自带扩展功能。只要在主界面的“工具”菜单下打开“选项”对话框,找到“扩展”标签,点击其中的“开始扩展”按钮即可。扩展过程需要Internet连接,扩展成功后新的数据包可自动生效。扩展用时根据网络速度不同而不同,最快仅需数秒,最慢需要数分钟,烦请耐心等待。如扩展失败,可点击“扩展”界面左上角小锁图标切换为加密连接,即可很大程度上避免因防火墙或其他原因导致的连接失败。 本程序自V2.0版起采用全新的底层程序架构,使用了异步多线程编程技术,使得检测、下载、修复单独进行,互不干扰,快速如飞。新程序更改了自我校验方式,因此使用新版本的程序时不会再出现自我校验失败的错误;但并非消自我校验,因此程序安全性与之前版本相同,并未降低。 程序有更新系统c++功能。由于绝大多数软件运行时需要c++的支持,并且c++的异常也会导致0xc000007b错误,因此程序在检测修复的同时,也会根据需要更新系统中的c++组件。自V3.2版本开始使用了全新的c++扩展包,可以大幅提高工业软件修复成功的概率。修复c++的功能仅限于增强版,标准版及在线修复版在系统c++异常时(非丢失时)会提示用户使用增强版进行修复。除常规修复外,新版程序还支持C++强力修复功能。当常规修复无效时,可以到本程序的选项界面内开启强力修复功能,可大幅提高修复成功率。请注意,请仅在常规修复无效时再使用此功能。 程序有两种窗口样式。正常模式即默认样式,适合绝大多数用户使用。另有一种简约模式,此时窗口将只显示最基本的内容,修复会自动进行,修复完成10秒钟后会自动退出。该窗口样式可以使修复工作变得更加简单快速,同时方便其他软件、游戏将本程序内嵌,即可进行无需人工参与的快速修复。开启简约模式的方法是:打开程序所在目录下的“Settings.ini”文件(如果没有可以自己创建),将其中的“FormStyle”一项的值改为“Simple”并保存即可。 新版程序支持命令行运行模式。在命令行中调用本程序,可以在路径后直接添加命令进行相应的设置。常见的命令有7类,分别是设置语言的命令、设置窗口模式的命令,设置安全级别的命令、开启强力修复的命令、设置c++修复模式的命令、控制Direct加速的命令、显示版权信息的命令。具体命令名称可以通过“/help”或“/?”进行查询。 程序有高级筛选功能,开启该功能后用户可以自主选择要修复的文件,避免了其他不必要的修复工作。同时,也支持通过文件进行辅助筛选,只要在程序目录下建立“Filter.dat”文件,其中的每一行写一个需要修复文件的序号即可。该功能仅针对高级用户使用,并且必须在正常窗口模式下才有效(简约模式时无效)。 本程序有自动记录日志功能,可以记录每一次检测修复结果,方便在出现问题时,及时分析和查找原因,以便找到解决办法。 程序的“选项”对话框中包含了7项高级功能。点击"常规”选项卡可以调整程序的基本运行情况,包括日志记录、安全级别控制、调试模式开启等。只有开启调试模式后才能在C
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页