20201111编程猫面经

数仓工程师

1、描述一下hive报表开发的业务场景,有没有碰到复杂的口径。
2、抽取数据用什么工具
3、简单介绍开发的报表(包括维度表、事实表)的核心指标
4、sql题
a.有个表,两个字段
month price
1 100
2 200
3 300
一个sql实现按月累加
sum(price) over(order by month asc)
5、场景题
有两个100G的文件,每个文件各自有一个字段,机器只有2G2核,怎么不发生OOM的情况,进行key的匹配
hash成一个个小文件
6、hive做过哪些优化
7、一个hive表,碰到要临时新加入维度,怎么搞?
alter
https://www.jianshu.com/p/9088fe002e2a
或者insert overwrite
8、你们的大横表、汇总表,怎么分享给业务?怎么展现
9、如果涉及在同一张表计算一级机构、二级机构、三级机构、怎么用sql做?
grouping set
10、如果上述数据量很大怎么搞?有什么工具?
kylin或者clickhouse
他们公司用的clickhouse,前后端对接。业务人员在前端界面选择维护,后台clickhouse实时计算。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值