数仓面试题

hive优化

https://blog.csdn.net/oracle8090/article/details/80008924

https://blog.csdn.net/B11050101/article/details/78754652

1.hive表关联查询,造成数据倾斜的常见原因,如何解决数据倾斜

https://blog.csdn.net/oracle8090/article/details/112003247

2.请说明hive中 sort by,order by,cluster by,distribute by 含义

https://blog.csdn.net/oracle8090/article/details/112003364

3.移动平均怎么求

select 
   cookieid, 
   createtime, 
   pv, 
   avg(pv) over (partition by cookieid order by createtime rows between unbounded preceding and current row) as pv1, -- 默认为从起点到当前行
   avg(pv) over (partition by cookieid order by createtime) as pv2, --从起点到当前行,结果同pv1
   avg(pv) over (partition by cookieid) as pv3, --分组内所有行
   avg(pv) over (partition by cookieid order by createtime rows between 3 preceding and current row) as pv4, --当前行+往前3行
   avg(pv) over (partition by cookieid order by createtime rows between 3 preceding and 1 following) as pv5, --当前行+往前3行+往后1行
   avg(pv) over (partition by cookieid order by createtime rows between current row and unbounded following) as pv6  --当前行+往后所有行
from cookie1;

转自 https://www.cnblogs.com/qingyunzong/p/8782794.html

4.RDD,DataFrames,Dataset区别

5.hive 所有的join

inner ,left join  right join full join 不说了

left semi join 是 in/exists 更高效的写法 hive没有这种 in 语法 和inner join 最大的区别是 如果a是主表 b是从表 b有重复记录的话 inner会出来多条,但是 left semi join 只会有一条

map-side join:hive可以在map端执行连接过程(对于在join时有一个是小表的情况)

 使用map-side join,需要配置下:

(1)hive0.7版本之前,需要加/*+ mapjoin(表名) */

select /*+ mapjoin(d) */ s.ymd,d.dividend from stocks s join dividends d

on s.ymd=d.ymd and s.symbol=d.symbol

where s.symbol=’AAPL

(2)hive0.7版本开始,设置hive.auto.convert.join=true

hive.auto.convert.join=true

hive.mapjoin.smalltable.filsize=25000000    --使用这个优化的小表的大小(单位:字节)--注意:右外连接和全外连接不支持这个优化
 

6.查看hdfs文件大小的命令

hadoop fs -du -h

hadoop fs -count 

7.hive 用法 groupingsets

hive> select city,type,sum(num),GROUPING__ID  from 
    > (select '北京' as city,'生鲜' as type, 1 num
    > union all 
    > select '北京' as city,'标品' as type, 1 num
    > union all
    > select '上海' as city,'生鲜' as type, 1 num
    > union all  
    > select '上海' as city,'标品' as type, 1 num) a group by city,type
    > grouping sets (city,(city,type)) ;

上海    NULL   2    1
上海    标品     1    3
上海    生鲜     1    3
北京    NULL   2    1
北京    标品     1    3
北京    生鲜     1    3

 

8.hive 转mr原理

https://blog.csdn.net/oracle8090/article/details/81090108

9.count(distinct uuid),count(distinct user_id)这种的怎么优化,

9.2 count(distinct uuid) 如何优化

https://blog.csdn.net/qq_32252917/article/details/88687565

10.相互关注 的多种实现方式

11.lateralview collect_set 

12.怎么保证模型建设的过渡设计和设计不足。

13.拉链表回溯历史数据需要考虑哪些问题


数仓 

1、数仓分层及及其作用 事实表的存储类型 全量增量

2、星型模型和雪花模型区别优缺点。

https://blog.csdn.net/oracle8090/article/details/84189656

2、事实表的几种类型 比如事务型 周期快照 累计快照等

3、如何保证数据产出时间 做了哪些工作 

4、为了保证脚本的性能你做了哪些优化

5、数据质量怎么去做啊 针对紧急的需求你怎么进行处理保证质量啊

6、缓慢变化维 如何实现 比如拉链表怎么搞 

7、数据漂移如何解决
https://blog.csdn.net/weixin_39714046/article/details/93661755
8、新业务产生你怎么去回溯数据啊 如果回溯的数据依然有空值怎么解决 历史空值怎么解决

9、像一些事实表数据量比较大怎么解决

https://www.cnblogs.com/zourui4271/p/5454940.html
10、如何设置map 和reduce 的个数 如何解决输入小文件过多 等比如常用的一些参数

11、数据倾斜如何解决思路是啥

12、一个文件100G 的数据 如果进行全排序
平台

1、调度的你了解不

2、对外数据产出方式有哪一些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值