构建企业级数据湖?

本文介绍了Azure Data Lake Storage Gen2(ADLS Gen2)在构建企业级数据湖中的作用,强调了其在数据存储和查询计算上的优势。ADLS Gen2作为Azure存储账号的一部分,提供了层次结构命名空间和文件系统级别的存储能力,支持目录的元数据和权限控制。通过Azure AD和ACL,实现了细粒度的权限管理,适合企业数据平台的资源管控需求。文章还展示了创建和管理ADLS Gen2实例的过程,以及权限控制的实操验证。
摘要由CSDN通过智能技术生成

相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大、综合成本低、支持非结构化数据、查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式。

数据湖的核心功能,简单地可以分为数据存储与数据查询计算两个部分,在云端可以有多种的实现选择。在之前的文章中,我们曾介绍Azure上Azure Data Lake Storage (ADLS Gen1)和Azure Data Lake Analytics (ADLA)这一对可配合使用的服务。这对黄金搭档正是为数据湖而生,分别对应着大数据存储和查询计算的能力。

在数据湖存储服务方面Azure继续着快速发展的脚步,在重新梳理了产品思路之后,将ADLS与同为存储服务的Azure Storage进行了大力整合。的确,在底层存储基础设施方面,ADLS完全可以复用Azure Storage久经考验的存储机制和成熟实现,并在此基础上支持企业级大数据分析的特性并进行针对性优化。在这一新体系下的成果,则是微软于18年开放预览、于19年2月正式对外发布的Azure Data Lake Storage Gen2 (下称ADLS Gen2)。第二代ADLS的口号是“不妥协的数据湖平台,它结合了丰富的高级数据湖解决方案功能集以及 Azure Blob 存储的经济性、全球规模和企业级安全性”。

那么,全新一代的ADLS Gen2实际体验如何?在架构及特性上是否堪任大型数据湖应用的主存储呢?这正是本文希望探讨的话题。

 

ADLS Gen2初体验

百闻不如一见,我们首先来尝试创建一个ADLS Gen2的实例。需要注意的是,与第一代ADLS是独立服务不同,ADLS Gen2已经集成于大家熟悉的存储账号(Storage Account)的功能体系之中。在建立存储账号时,请注意勾选"Advanced"选项卡下"Hierarchical namespace"(中文译作“层次结构命名空间”)这个看似不起眼的选项:

当这个选项被勾选时,创建出的存储账号中的原Blob存储部分就自然被耳目一新的ADLS Gen2文件系统所替代了:

从这里的产品措辞可以看出,“层次结构”和“文件系统”是反复被强调的ADLS Gen2的最大特点,也是它有别于传统Blob对象存储的最大不同。传统对象存储虽然从路径上看起来也具有“目录”的虚拟概念,但其实目录通常并不实际存在,可认为仅是Blob对象路径字符串中的一部分,因为对象存储本质上是key-value形式的存储。而ADLS这样的“文件系统”级别的存储能力上,目录则是一等公民可以设置访问权限等元数据(并且能够被子节点继承),也可以使目录重命名等操作变得十分便捷迅速。这样的特性无疑使ADLS更适合作为企业数据湖这样应用的存储介质。

让我们继续操作。点击"Data Lake Gen2 file systems"来到文件系统的管理界面,可看到支持创建多个File System。我们先新建一个File System,这个步骤非常类似Blob存储中建立Container:

 

 再尝试点击进入刚建立的cloudpickerfs这个文件系统,会发现界面上几乎空空如也,提示我们需要使用客户端工具Azure Storage Explorer才可进行操作:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值