本文属于【Azure Data Platform】系列。
接上文:【Azure Data Platform】Dedicated SQL Pool——导入性能测试(4)——总结
本文谈一下数据平台的选择
前言
云计算已经被广泛接受和使用,那么在关于数据平台方面,很多人会关心数据库,数据仓库,和数据湖的关系,我们都看重数据,也希望使用数据,很多时候我们已经有数据了,但是由于数据的产生形式不一样,数据的使用和存储都有不一样的要求。
另外在工作中也有不少需求要选择数据平台,所以整理了一些关键因素。我们常用的数据的存储介质有上面提到的数据库,数据仓库,和数据湖:
传统数据库(关系型数据库为主)
比如Azure SQL DB
数据库可存储有限的数据。这个很关键,不要试图存储所有的数据到数据库中,最起码从存储的成本而言并不最优化。我们通常存储的数据为活动数据,意味着是当前就要使用的数据。然后随着时间的流逝,数据的“生命”也开始流逝。这时候就要考虑数据的归档。
对于归档数据,可以分开数据库存放,也可以用其他存储来存放。这要根据具体使用决定。通常来说,会对1~5年内还在频繁使用的数据以独立数据库的形式存放。对于更长时间的数据,我们可以用更便宜的文件进行存放。
但是即使选择数据库,也可以细分成很多不同的种类,比如关系数据库(也有