前言提示
本博客是学习记录,可能存在错误,仅供参考。
如发现错误,欢迎在评论区指正,我会及时修改。
同时也希望大家能在评论区多和我讨论(例如帮助我解决文中的#疑问),或者私信我,讨论可以让我们学习效率一起变得更高。
现在的版本不是最终版本,我会在学习过程中不断地更新。
第1章 数据仓库概念
1.简介
数仓仓库是为企业制定决策,提供数据支持
数仓仓库不是数据的最终目的,数据进入仓库后,需要进行计算分析,形成各种指标,然后展示提供给需要的人。
2.数据分类
数据仓库的输入数据:业务数据,用户行为数据和爬虫数据
业务数据有统一的特点就是响应快,可用关系型数据库MySql存储
用户行为数据需要埋点收集,数据量比较大,可以用日志文件进行存储
爬虫数据可能触犯法律
3.数仓总体简介
源数据层(ODS)做数据的备份,防止一些误操作,把原数据删除或者覆盖了。
明细数据层(DWD)对数据进行清洗
服务数据层(DWS)对数据进行预聚合操作,将大表之间提前join好,形成中间表,避免一些大表的多次join,方便指标的统计。
数据维度层(DIM)和DWT的区别#疑问
ADS层是统计各种指标的
DM和ADS的区别#疑问