千亿级数仓_项目总结
文章目录项目流程技术选型数据存储数据同步计算模型结果存储kylin加速查询项目流程1、原始数据在mysql存储2、使用kettle将数据在mysql同步到数据仓库(hive),同步分为全量同步+增量同步=拉链表(目标:既能够保存历史的数据,又不会有数据冗余)3、数据存储到Hive,Hive内部结构:ODS: 存储在数据源同步过来的数据DW:对ODS存储的数据进行过滤、填充,预计算,以及数据的拉宽。(拉宽:就是将业务上需要的字段,但是字段不在一个表中,使用拉宽(join)将这些字段
复制链接