面经
qiyong7578
从头再来
展开
-
20210223——某厂大数据开发面经
1、SparkSQL有几种join? 2、Hive你怎么做的优化? 3、你确定你这么做真的能保证exactly-once? 4、Hive字段类型不同,会发生什么事? 5、Hive的执行计划看过吗?里面都有什么内容?你怎么看的 6、SS的实时是怎么和离线关联起来的?api吗?任务每天重启? ...原创 2021-02-23 16:25:06 · 209 阅读 · 0 评论 -
平安产险-大数据开发面经
1、hive接触过哪些文件存储类型,text的优劣、列式存储的好处、SequeceFile的好处、RCFile有没有用过 2、对mr的理解 3、内部表和外部表的区别,对应的应用场景 4、map join和reduce join的区别 5、写过最复杂的sql,场景是什么,工作中什么样的sql写的比较多 6、hive的数据倾斜,怎么解决 * 7、宽依赖和窄依赖的理解* shuffle、stage,发生shuffle就会划分stage,产生宽依赖 8、日志数据、交易数据的数据量 9、数仓的理解,我从分层角度回答、原创 2021-01-12 23:28:20 · 789 阅读 · 0 评论 -
Hive经典面试题
环比:比上月同期 sales表 month id sales 202007 1 800 202004 1 900 202005 1 700 202006 1 900 202008 1 1000 202009 1 1100 202007 2 800 202004 2 900 202005 2 700 202006 2 900 202008 2 600 202009 2 1100 select distinct id from (se原创 2020-12-03 22:29:00 · 334 阅读 · 0 评论 -
面试准备
1. 熟悉python开发语言,熟悉hive/hadoop等分布式计算技术,熟悉其运行机制和体系结构,有MR作业编写经验优化。 hadoop复习 hadoop项目复习 hive sql编译过程复习 参考美团 https://tech.meituan.com/2014/02/12/hive-sql-to-mapreduce.html MR项目复习 2. 灵活运用SQL实现海量数据ETL加工处理 ,有较好的SQL性能调优经验; Hivesql复习(窗口函数、分析函数) hive性能优化 3. 思路清晰,对数据敏原创 2020-11-22 01:58:51 · 102 阅读 · 0 评论 -
20201111编程猫面经
数仓工程师 1、描述一下hive报表开发的业务场景,有没有碰到复杂的口径。 2、抽取数据用什么工具 3、简单介绍开发的报表(包括维度表、事实表)的核心指标 4、sql题 a.有个表,两个字段 month price 1 100 2 200 3 300 一个sql实现按月累加 sum(price) over(order by month asc) 5、场景题 有两个100G的文件,每个文件各自有一个字段,机器只有2G2核,怎么不发生OOM的情况,进行key的匹配原创 2020-11-11 20:28:33 · 676 阅读 · 0 评论