本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (5) - Unity Catalog 简介
UC的关键特性
之所以DataBricks要用UC, 很大程度是对安全的管控。从上文可以了解到它的四大特性:
- 数据访问控制: 谁可以访问什么数据
- 数据访问审计: 收集访问数据的行为
- 数据血缘: 收集上游来源和下游消费者
- 数据发现: 可用于查询和发现已授权的资产
UC开启前后的变化
这是一个很重要的图,如果不是从0开始使用UC 而是迁移,那么很有必要了解前后发生了什么事。
从下图可以看出,UC 把User/Group management, Metastore, Access controls 从过去单个workspace中提取出来集中管理。workspace只负责计算资源的管理。

这种变化会使得原有在单个workspace上的配置迁移到UC 内部,这个过程会出现很多问题和改动, 所以要有心理准备在迁移过程中会花费不少时间。
接下来我们先搭建环境,以便后续重现很多问题。

本文详细介绍了如何在Azure Databricks中配置Unity Catalog(UC),强调了UC在数据安全管控方面的重要性,包括数据访问控制、审计、血缘和发现。文章通过对比UC启用前后的变化,展示了UC如何集中管理用户、元数据和访问控制。在创建UC的过程中,涉及到授权ADLS Gen2、启用metastore等关键步骤,并提供了详细的配置指导,包括设置存储账户、创建metastore、分配权限等。
最低0.47元/天 解锁文章
382

被折叠的 条评论
为什么被折叠?



