数据仓库
zhangztSky
这个作者很懒,什么都没留下…
展开
-
orc paquet 行式存储和列式存储
原创 2020-04-03 18:01:00 · 390 阅读 · 0 评论 -
记一次批量型数据倾斜的hive优化
问题概述CREATE TABLE answer as select * from a left join b on a.model_id=b.model_id left join c on a.model_id=c.model_id;其中表a四千万行,b,c仅仅百万行,但是这个结果的reduce阶段却跑了12个小时,原本2GB的数据,生成了2T数据,150亿行数据。这是为什么呢...原创 2020-03-29 21:24:30 · 136 阅读 · 0 评论 -
running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used---yarn 参数研究
mr报错Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memo...原创 2020-03-29 20:57:23 · 1108 阅读 · 0 评论 -
数仓理论
实体表实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。用户id 姓名 生日 性别 邮箱 用户等级 创建时间1 张三 2011-11-11 男 [email protected] 2 2018-11-112 李四 2011-11-11 女 [email protected] 3 2018-11-113 王五 2011-11-11 中性 [email protected] 1 ...原创 2020-03-15 16:57:22 · 234 阅读 · 0 评论