本文属于【Azure Data Platform】系列。
接上文:【Azure Data Platform】SQL DW 备份策略
前言
在当前工作中,频繁且广泛使用Azure 的Data Lake服务,毕竟云环境下也要存储,所以几乎所有的数据相关服务,都或多或少涉及了Data Lake的使用。基于最近的学习,有了一些新的认识,在这里记录一下。
数据不管在云上还是本地,都需要存储,大数据带来的首要压力就是数据存储,随着数据的种类和体量越来越大,传统的存储不仅费用昂贵,甚至你愿意付钱也不一定够用。夸张点说,很可能光存储费就可以让一家公司倒闭了。
今时今日系统上云的其中一个常见理由就是希望通过云提供的低廉的无限量的存储服务来解决大数据存储问题。
Azure Data Lake
先了解一个术语:数据湖(Azure Data Lake),它是一个存储库,它可以存储大量的结构化、半结构化和/或非结构化存储格式的原始数据。这与SQL DW的结构化环境不同。虽然数据湖可以作为数据仓库的上游,但实际上,在专业环境中更多是用来做单独的分析和探索。数据科学家、BI 开发人员和分析师可以深入研究任何临时探索和分析。
接下来要搞清楚的是ADLS, Blob Storage, ADLS gen1, gen2 这些概念。