百度统计 java 实现思路_搞定BAT之百度面经深度整理

最新推荐文章于 2022-07-09 14:00:32 发布

weixin_39714528

最新推荐文章于 2022-07-09 14:00:32 发布

阅读量134

点赞数

文章标签：百度统计 java 实现思路

点击上方蓝字关注我吧

准备百度的大数据开发面试的时候查了很多资料，找了很多面经，但是网上关于百度的面经比较少，所以最后把自己从各路大佬那里淘来的珍贵面经整理出来，也算回馈大家了。

我都汇总过了，题目很多，主要是通过这些题目可以找到大厂面试的思路，融汇贯通最后就能举重若轻。

感谢为我提供面经的大佬们，也希望看这篇帖子的人能拿到自己满意的offer。

不多说，上干货！

百度面经一

笔试部分

你可以得到网站访问记录，每条记录都有userIP，设计一个程序，要随时能计算出过去5分钟内访问次数最多的1000个IP。
简述Paxos协议。
编程简单实现一个阻塞队列。
简单实现一个LRU算法。
有一个5000万的用户文件(user_id,name,age)，一个2亿记录的用户看电影的记录文件(user_id,url)，根据年龄段观看电影的次数进行排序。

技术部分

Java的NIO是否了解？
Java多线程(什么wait、notify)。
MapReduce的shuffle过程(手画，边画边介绍)，reduce是怎么到map端获取数据的(RPC通信是否了解)。
一句话介绍MapReduce。
Spark做缓存时缓存在哪里？
百度不用Spark，只用Hadoop和MapReduce(至少这个部门是这样，这个部门的主要业务是做用户画像)，把MapReduce工作的各个阶段过程吃透。
是否看过Hadoop源码。
Linux系统(常用命令啥的)。
除了这些平时还接触或者学习哪些技术？

项目部分

业务架构。
根据项目业务介绍技术。
MapReduce数据倾斜和内存溢出怎么办？

算法部分

手写归并排序。
手写用递归实现斐波那契数列第100项的值(第一项和第二项分别为0和1) 。
算法和数据结构了解到什么程度、知道多少？
Java中的数据结构，ArrayList和LinkedList的区别，ArrayList为什么查询快(为什么用数组就快)、LinkedList为什么增删快，哪些Map是线程安全的？

手写代码部分

手写MapReduce的WordCount(导入的包最好能记住)。

场景部分

遇到垃圾日志怎么办(假如说有人恶意制造日志，怎么处理。我说的黑名单机制，那个面试官貌似还挺满意)

百度面经二

基本信息介绍

百度：视频面试；
面试周期：5天；
面试次数：6次；
面试总时长：3小时。

一面二面(印象中的一些问题)：

自定义UDF、UDTF。
如何确定计算数据的准确性？
建立数仓的目的。
自定义拦截器步骤。
SpringMVC。
设计网站前后端交互问题。
Linux常用命令。

三面(部门负责人)：

在没有PM的情况下如何对指标做拆分去分析？
介绍了他们部门的工作内容。

四面hrbp:

介绍工作经历+工作遇到的困难+对所应聘职位的理解+分析指标提出时间和原因+离职原因等问题

五面业务总裁：

某一天日活下降10%，需要从哪些维度分析，如何分析?不用说技术

六面Recuriter面：

上家薪资+期望薪资+职级+对数据分析和指标分析的理解+职业规划等问题。

百度面经三

基本信息介绍

11月17号度小满金融(原百度金融，A轮公司)；
面试地点：西北旺百度科技园旁；
面试时长：2个半小时；
面试次数：3次。

一面：

一面中规中矩，有手写SQL环节，还有SparkStreaming常用算子解决实际问题。大概1个多小时。
手写SQL考的是：
三个字段：area、year、temperature，统计每个地区的温度最高的对应的年份。
写的用rank函数，一个子查询，险过。

二面：

因为面的是架构师，所以二面问的是几个组件的版本号和几个大数据组件的安装过程和配置文件细节，还有HA的几个进程的作用，比较难。大概20分钟

三面：

问了自定义UDAF，UDTF，和数仓开放性问题，和三面主管说了毕业时间，并说了未签订劳务合同，他说怎么没签合同呢，太后悔了，最后走的时候说hr可能过不去，给我争取一下。大概30分钟。

百度面经四

笔试

写出用户表 tb_cuid_1d的 20200401 的次日、次7日留存的具体HQL ；
一条sql统计出以下指标(4.1号uv，4.1号在4.2号的留存uv，4.1号在4.8号的留存uv)(一条sql写完)；
统计当天不同平台、版本下的uv、pv；
解析ext中所有的"type"( lateral view explode)；

二面：

有两张表，分别是t_a (uid,os,day)，t_b(uid,os,day)，统计15号在t_a，但是不在t_b的用户；
ut格式: 机型_app版本_xxx_xxx_厂商，如 iphone 6s_10.0.0.1_sdk12.1_baidu_iphone：解析出来12.1
针对表 t_a (uid,os,day)，统计以下两个指标

最近30内，所有用户末次活跃日期

最近30内，所有用户末次活跃日期和倒数第二次的差值

百度面经五

一面：

讲项目。
Kafka精确一次性。
数据量。
log日志类型，存的什么数据？
Spark Streaming怎么做的实时？
HBase Rowkey你是怎么设计的？
Namenode 重启流程。
HDFS读流程。
Flume拦截器怎么写的？
Fume结构。
两道算法：

窗口求中位数，说流式处理底层求热点问题常用到；
一个树形结构，一个节点可以监听它的父节点和子节点，问最小监听数量。

END 扫码入群和大佬们一起讨论技术

该公众号开源为大家解决大数据企业级遇到的各种问题，也欢迎各位大佬积极加入开源共享(共同面对大数据领域各种老大难问题)

来稿请投邮箱：miaochuanhai@126.com

weixin_39714528

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百度统计 java 实现思路_搞定BAT之百度面经深度整理

点击上方蓝字关注我吧准备百度的大数据开发面试的时候查了很多资料，找了很多面经，但是网上关于百度的面经比较少，所以最后把自己从各路大佬那里淘来的珍贵面经整理出来，也算回馈大家了。我都汇总过了，题目很多，主要是通过这些题目可以找到大厂面试的思路，融汇贯通最后就能举重若轻。感谢为我提供面经的大佬们，也希望看这篇帖子的人能拿到自己满意的offer。不多说，上干货！01百度面经一笔试部分你可以得到...
复制链接

扫一扫