数仓面试题

最新推荐文章于 2025-04-15 00:00:28 发布

小朋友,你是否有很多问号?

最新推荐文章于 2025-04-15 00:00:28 发布

阅读量975

点赞数 1

分类专栏：大数据面试

本文链接：https://blog.csdn.net/oracle8090/article/details/81299612

版权

大数据面试专栏收录该内容

5 篇文章

订阅专栏

hive优化

https://blog.csdn.net/oracle8090/article/details/80008924

https://blog.csdn.net/B11050101/article/details/78754652

1.hive表关联查询,造成数据倾斜的常见原因,如何解决数据倾斜

https://blog.csdn.net/oracle8090/article/details/112003247

2.请说明hive中 sort by,order by,cluster by,distribute by 含义

https://blog.csdn.net/oracle8090/article/details/112003364

3.移动平均怎么求

select 
   cookieid, 
   createtime, 
   pv, 
   avg(pv) over (partition by cookieid order by createtime rows between unbounded preceding and current row) as pv1, -- 默认为从起点到当前行
   avg(pv) over (partition by cookieid order by createtime) as pv2, --从起点到当前行，结果同pv1
   avg(pv) over (partition by cookieid) as pv3, --分组内所有行
   avg(pv) over (partition by cookieid order by createtime rows between 3 preceding and current row) as pv4, --当前行+往前3行
   avg(pv) over (partition by cookieid order by createtime rows between 3 preceding and 1 following) as pv5, --当前行+往前3行+往后1行
   avg(pv) over (partition by cookieid order by createtime rows between current row and unbounded following) as pv6  --当前行+往后所有行
from cookie1;

转自 https://www.cnblogs.com/qingyunzong/p/8782794.html

4.RDD，DataFrames，Dataset区别

5.hive 所有的join

inner ,left join right join full join 不说了

left semi join 是 in/exists 更高效的写法 hive没有这种 in 语法和inner join 最大的区别是如果a是主表 b是从表 b有重复记录的话 inner会出来多条，但是 left semi join 只会有一条

map-side join：hive可以在map端执行连接过程（对于在join时有一个是小表的情况）

使用map-side join，需要配置下：

（1）hive0.7版本之前，需要加/*+ mapjoin(表名) */

select /*+ mapjoin(d) */ s.ymd,d.dividend from stocks s join dividends d

on s.ymd=d.ymd and s.symbol=d.symbol

where s.symbol=’AAPL

（2）hive0.7版本开始，设置hive.auto.convert.join=true

hive.auto.convert.join=true

hive.mapjoin.smalltable.filsize=25000000 --使用这个优化的小表的大小(单位：字节)--注意：右外连接和全外连接不支持这个优化

6.查看hdfs文件大小的命令

hadoop fs -du -h

hadoop fs -count

7.hive 用法 groupingsets

hive> select city,type,sum(num),GROUPING__ID from
> (select '北京' as city,'生鲜' as type, 1 num
> union all
> select '北京' as city,'标品' as type, 1 num
> union all
> select '上海' as city,'生鲜' as type, 1 num
> union all
> select '上海' as city,'标品' as type, 1 num) a group by city,type
> grouping sets (city,(city,type)) ;

上海   NULL   2   1
上海   标品 1   3
上海   生鲜 1   3
北京   NULL   2   1
北京   标品 1   3
北京   生鲜 1   3

8.hive 转mr原理

https://blog.csdn.net/oracle8090/article/details/81090108

9.count(distinct uuid),count(distinct user_id)这种的怎么优化，

9.2 count(distinct uuid) 如何优化

https://blog.csdn.net/qq_32252917/article/details/88687565

10.相互关注的多种实现方式

11.lateralview collect_set

12.怎么保证模型建设的过渡设计和设计不足。

13.拉链表回溯历史数据需要考虑哪些问题

数仓

1、数仓分层及及其作用事实表的存储类型全量增量

2、星型模型和雪花模型区别优缺点。

https://blog.csdn.net/oracle8090/article/details/84189656

2、事实表的几种类型比如事务型周期快照累计快照等

3、如何保证数据产出时间做了哪些工作

4、为了保证脚本的性能你做了哪些优化

5、数据质量怎么去做啊针对紧急的需求你怎么进行处理保证质量啊

6、缓慢变化维如何实现比如拉链表怎么搞

7、数据漂移如何解决
https://blog.csdn.net/weixin_39714046/article/details/93661755
8、新业务产生你怎么去回溯数据啊如果回溯的数据依然有空值怎么解决历史空值怎么解决

9、像一些事实表数据量比较大怎么解决

https://www.cnblogs.com/zourui4271/p/5454940.html
10、如何设置map 和reduce 的个数如何解决输入小文件过多等比如常用的一些参数

11、数据倾斜如何解决思路是啥

12、一个文件100G 的数据如果进行全排序
平台

1、调度的你了解不

2、对外数据产出方式有哪一些