hive优化
https://blog.csdn.net/oracle8090/article/details/80008924
https://blog.csdn.net/B11050101/article/details/78754652
1.hive表关联查询,造成数据倾斜的常见原因,如何解决数据倾斜
https://blog.csdn.net/oracle8090/article/details/112003247
2.请说明hive中 sort by,order by,cluster by,distribute by 含义
https://blog.csdn.net/oracle8090/article/details/112003364
3.移动平均怎么求
select
cookieid,
createtime,
pv,
avg(pv) over (partition by cookieid order by createtime rows between unbounded preceding and current row) as pv1, -- 默认为从起点到当前行
avg(pv) over (partition by cookieid order by createtime) as pv2, --从起点到当前行,结果同pv1
avg(pv) over (partition by cookieid) as pv3, --分组内所有行
avg(pv) over (partition by cookieid order by createtime rows between 3 preceding and current row) as pv4, --当前行+往前3行
avg(pv) over (partition by cookieid order by createtime rows between 3 preceding and 1 following) as pv5, --当前行+往前3行+往后1行
avg(pv) over (partition by cookieid order by createtime rows between current row and unbounded following) as pv6 --当前行+往后所有行
from cookie1;
转自 https://www.cnblogs.com/qingyunzong/p/8782794.html
4.RDD,DataFrames,Dataset区别
5.hive 所有的join
inner ,left join right join full join 不说了
left semi join 是 in/exists 更高效的写法 hive没有这种 in 语法 和inner join 最大的区别是 如果a是主表 b是从表 b有重复记录的话 inner会出来多条,但是 left semi join 只会有一条
map-side join:hive可以在map端执行连接过程(对于在join时有一个是小表的情况)
使用map-side join,需要配置下:
(1)hive0.7版本之前,需要加/*+ mapjoin(表名) */
select /*+ mapjoin(d) */ s.ymd,d.dividend from stocks s join dividends d
on s.ymd=d.ymd and s.symbol=d.symbol
where s.symbol=’AAPL
(2)hive0.7版本开始,设置hive.auto.convert.join=true
hive.auto.convert.join=true
hive.mapjoin.smalltable.filsize=25000000 --使用这个优化的小表的大小(单位:字节)--注意:右外连接和全外连接不支持这个优化
6.查看hdfs文件大小的命令
hadoop fs -du -h
hadoop fs -count
7.hive 用法 groupingsets
hive> select city,type,sum(num),GROUPING__ID from
> (select '北京' as city,'生鲜' as type, 1 num
> union all
> select '北京' as city,'标品' as type, 1 num
> union all
> select '上海' as city,'生鲜' as type, 1 num
> union all
> select '上海' as city,'标品' as type, 1 num) a group by city,type
> grouping sets (city,(city,type)) ;
上海 NULL 2 1
上海 标品 1 3
上海 生鲜 1 3
北京 NULL 2 1
北京 标品 1 3
北京 生鲜 1 3
8.hive 转mr原理
https://blog.csdn.net/oracle8090/article/details/81090108
9.count(distinct uuid),count(distinct user_id)这种的怎么优化,
9.2 count(distinct uuid) 如何优化
https://blog.csdn.net/qq_32252917/article/details/88687565
10.相互关注 的多种实现方式
11.lateralview collect_set
12.怎么保证模型建设的过渡设计和设计不足。
13.拉链表回溯历史数据需要考虑哪些问题
数仓
1、数仓分层及及其作用 事实表的存储类型 全量增量
2、星型模型和雪花模型区别优缺点。
https://blog.csdn.net/oracle8090/article/details/84189656
2、事实表的几种类型 比如事务型 周期快照 累计快照等
3、如何保证数据产出时间 做了哪些工作
4、为了保证脚本的性能你做了哪些优化
5、数据质量怎么去做啊 针对紧急的需求你怎么进行处理保证质量啊
6、缓慢变化维 如何实现 比如拉链表怎么搞
7、数据漂移如何解决
https://blog.csdn.net/weixin_39714046/article/details/93661755
8、新业务产生你怎么去回溯数据啊 如果回溯的数据依然有空值怎么解决 历史空值怎么解决
9、像一些事实表数据量比较大怎么解决
https://www.cnblogs.com/zourui4271/p/5454940.html
10、如何设置map 和reduce 的个数 如何解决输入小文件过多 等比如常用的一些参数
11、数据倾斜如何解决思路是啥
12、一个文件100G 的数据 如果进行全排序
平台
1、调度的你了解不
2、对外数据产出方式有哪一些