电商离线数仓
Mr Fmy
这个作者很懒,什么都没留下…
展开
-
hive sql性能优化
1.join(1)建中间表(大表重复使用,逻辑重复使用,关联多逻辑复杂)(2)建子查询(减少数据量,减少大表关联)2.on(1)null值处理(2)关联字段唯一(3)数据倾斜过滤倾斜key(关于驱动表的取,用join key分布最均匀的表作为驱动表做好列裁剪和filter操作,以达到两表做join的时候,数据量相对变小的效果)BroadCastJoin(即map join)(使用map join让小的维度表(1000条以下的记录条数) 先进内存。在map端完成reduce)分层汇总拆原创 2021-10-15 21:38:52 · 296 阅读 · 0 评论 -
离线数仓整体流程(面试必备)
系统数据流通过程:电商数据来源分为两部分:(1)第一部分在网站做埋点,用户点击产生的日志数据,通过nginx,springboot将数据分发到日志服务器,logfile保存在日志服务器上。(2)第二部分是网站的业务数据,一般保存在mysql数据库。数据传输日志数据通过flume收集,然后保存到kafka,再通过flume传输到hdfs。业务数据直接通过sqoop导入到hdfs。数据处理编写hql以及脚本程序,放在azkaban上作为每日定时任务,将最后结果导入到mysql数据库。数据展示.原创 2021-01-28 11:35:33 · 1976 阅读 · 1 评论