千亿级数仓项目
总体介绍
数仓: 数据仓库
数据集市
阶段一
项目背景介绍
阶段二
准备数据(Mysql->Hive)
Kettle
sqoop
阶段三
数据仓库理论+实战
阶段四
编写SQL实现以下业务分析,并按照数据仓库结构存出结果
基于日期的订单指标分析(4)
基于地域的订单分类指标分析(18)
基于用户的订单指标分析(24)
基于用户的退货指标分析(5)
阶段五
使用kylin对结果数据进行预计算
阶段六
点击流分析
阶段一
了解大数据离线数仓架构
了解项目部署环境(数据规模和集群规模)
了解项目ER图
了解项目需求
行业业务系统
商家入驻平台
平台进行资质审核
自己发布商
电商平台子系统
网站前台
运营商后台(JD/淘宝/天猫/拼多多)
商家管理后台(商家自己的后台)
项目业务流程
电商行业JD/淘宝/天猫/拼多多拥有的资源
用户
店铺/商家
项目的目标和意义
如何在海量的客户
和海量的商品
之间找到结合点,达成更多的电子交易
。
能够在一定程度上促进消费。
项目能掌握的技能
1、数据仓库的概念和建设过程
2、离线数据仓库的功能、使用场景和常用的技术栈
千亿级数仓项目第一章
最新推荐文章于 2022-04-28 11:26:40 发布
本文详细介绍了千亿级数仓项目的实施过程,包括数据仓库和数据集市的构建,数据从Mysql迁移至Hive,利用Kettle、sqoop进行数据同步,通过Spark SQL进行数据计算和指标分析,以及使用Kylin进行预计算。项目涉及电商行业,涵盖了用户、店铺、订单等关键业务数据,每日数据增长量大,通过扩容硬件和数据归档解决存储问题。项目目标是提升消费并掌握数据仓库建设及相关技术。
摘要由CSDN通过智能技术生成