关系建模:
OLTP联机事务系统:用于处理关系型数据库,日常事务处理等
联机事务系统遵循三范式,最直观的体现就是表多查询时会有多个join。
第一范式:所有属性都是不可分割的基本数据项。
第二范式:在1NF的基础上,各个非主属性完全依赖候选码。
第三范式:在2NF的基础上,各个非主属性对主属性既没有传递依赖有没有部分函数依赖。
第一范式到第二范式解决部分函数依赖。
第二范式到第三范式解决传递函数依赖。
维度模型:
OLAP联机分析系统:用于数据仓库,更贴合人的思维、方便理解,shuffle操作少查询性能好,更适合作分析。
维度表:对事实的描述信息(谁,何时,何地)
维度表的特点:1.维度表的范围很宽(具有多个属性,列比较多)
2.与事实表相比行数相对较少(通常<10万条)
3.内容相对固定
事实表:每行数据都代表业务事件
事实表的特点:1.非常大
2.内容相对窄:列数较少(主要是外键id和度量值)
3.经常发生变化,每天会新增的很多
主要模型:星型模型,雪花模型
星型模型中心是事实表,外部是维度表
雪花模型中心是事实表,外部是维度表,相对星型模型来说其维度表是更细化的更贴近于三范式
数据仓库主要使用的是星型模型,因为减少join也就减少了shuffle提高了查询效率
数据仓库:1.ODS层:直接将业务数据和行为数据load到hdfs中
2.DWD层:使用星型模型建模,最后形成星座模型
3.DWS和DWT层(宽表层):对DWD层中的数据进行汇总 其中DWS是所有主题的当天的汇总行为 而DWT是所有主题的累计行为
4.ADS层是针对各大主题指标进行分析