面试经验的感悟体会

超级酷乐猫

已于 2022-03-14 17:23:19 修改

阅读量637

点赞数

分类专栏：感悟内容文章标签： hive big data 大数据

于 2022-02-21 10:37:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39759781/article/details/123041323

版权

感悟同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

1、自我介绍

2、项目介绍，项目中使用的技术、难点及如何解决，项目有哪些亮点、又有哪些收益（问的很细、很深）

答案：

（1）技术用到的是最新的技术，但是难点是团队是两个，沟通是一个很大的问题，只能反馈更高一级的领导协调相关资源。

（2）项目太多，人员众多，可以分组，设立各个组长进行管理，每个组出项目计划进行项目的实现。

3、关于如何用之前的经验来做这边的的产品，谈谈自己见解

4、以前的数仓有哪些可以优化和借鉴的地方

5. 标签系统整体设计思路，用户画像怎么做，模型怎么设计与落地

6、用户留存模型设计，有几种方案，各自的好处与不足是什么

7.如何衡量数仓的好坏，以及你对业务的思考

答案：

（1）模型的完整度

（2）模型的复用率

（3）模型的规范性

（4）核心模型与拓展模型分离

8、公共模型如何设计与优化

答案：

（1）获取更高的任务指标

（2）获得更快的运行速度

（3）用最简单的模型

（4）稳定可靠的性能

9、hadoop spark flink等大数据理解及实现原理及调优

10、用过哪些hive窗口函数，多维分析函数

11.HiveSQL从哪些方面优化

12.为什么多个count(distinct xxx)会非常慢

答案：既有全表扫描又有排序肯定会非常慢。

13.group by倾斜怎么优化

答案：可以采用Map端数据聚合的操作，有一个set hive.groupby.skewindata = true的参数设置

14.宽窄依赖的区别哪些算子有shuffle

15.如何保障数据质量

答案：

（1）首先要重视数据质量问题

（2）制度层面在公司形成数据管理的制度和文化

（3）执行层面数据质量全面实时监测

（4）成立专门部门解决数据质量的问题

（5）通过校验规则进行数据质量的检查和改善

16.如何管理指标和保障一致性

17.实时技术架构，你的理解和存在的问题

18.做过哪些数据治理，在技术和流程上都做了哪些工作

19.表分区有哪几种？

答案：范围分区，hash分区

超级酷乐猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
面试经验的感悟体会

1、自我介绍2、项目介绍，项目中使用的技术、难点及如何解决，项目有哪些亮点、又有哪些收益（问的很细、很深）答案：（1）技术用到的是最新的技术，但是难点是团队是两个，沟通是一个很大的问题，只能反馈更高一级的领导协调相关资源。（2）项目太多，人员众多，可以分组，设立各个组长进行管理，每个组出项目计划进行项目的实现。3、关于如何用之前的经验来做这边的的产品，谈谈自己见解4、以前的数仓有哪些可以优化和借鉴的地方5. 标签系统整体设计思路，用户画像怎么做，模型怎么设计与落地6、用户留存
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。