范式化
- 第一范式:数据库表的每一列都是不可分割的原子数据项,确保每一列的原子性。
- 第二范式:如果一个关系满足1NF,并且除了主键以外的其它列,都依赖与该主键;即一个表中不能有两个主键。即非主键字段必须依赖于主键字段
- 第三范式:在2NF基础上,除了主键以外的其它列都不传递依赖于主键列,或者说: 任何非主属性不依赖于其它非主属性(在2NF基础上消除传递依赖)(不准冗余)
总结:一范式就是属性不可分割,二范式就是要有主键,其他字段都依赖于主键,三范式就是要消除传递依赖,消除冗余,就是各种信息只在一个地方存储,不出现在多张表中
反范式化
不满足范式的模型,就是反范式模型,反范式跟范式所要求的正好相反,在反范式的设计模式,并不是完全不遵守范式模型,而是允许适当的数据的冗余,用这个冗余去取操作数据时间的缩短。本质上就是用空间来换取时间,把数据冗余在多个表中,当查询时可以减少或者是避免表之间的关联
两者对比
- 范式数据没有冗余,更新容易,但是查询时需要join很多表,导致效率较低;反范式数据存在冗余,更新时需要进行更多的操作,但是因为很多数据沉淀在同一表,查询效率较高
- 传统数据表,更新频繁,不适合反范式设计;而在hive这种存储系统中,数据不允许更新,且查询需求更为频繁,因此天然适合反范式模型设计。
实际应用中,一般对需要综合使用范式和反范式,保证空间和时间的平衡,但是随着磁盘空间的越来越廉价,反范式应用越来越普遍