本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (7) --Unity Catalog(UC) 基本概念和组件
前言
UC 简单来说,就是管理两样东西:用户和元存储。

用户管理
所有Databricks的用户和Service Principal都存储在UC内部。这些实体的授权,身份验证等都由UC 来管理。
如果一个新用户(如数据科学家)需要访问ADB 的资源,Databricks 组件引用 Unity Catalog 元存储来检索和验证元数据,从而确保整个环境的一致性和安全性。
同时UC 的认证服务会检查用户的实体是否在UC 的数据库中, 然后是否有足够的权限进行所需的操作。
元存储
ADB 里面有各种对象,如数据库,表和试图等,对象也有解释自己的数据,称之为元数据, 比如表的结构定义,数据的类型等,都会集中存储在元存储中,然后通过统一的视图来展示各个workspace的信息。
当一个数据工程师在workspace中创建一个数据库及表,那么这些对象的元数据就会存储到UC 的元存储中。这些信息通常包括schema,位置,授权情况等。

本文详细介绍了Azure Databricks中的Unity Catalog(UC),重点讨论了用户管理和元存储。UC负责管理用户和Service Principal的身份验证、授权,以及集中存储元数据,确保工作环境的一致性和安全性。元存储则包含数据库、表等对象的元数据,提供统一视图。通过整合UC,工作空间的权限管理得到加强,Spark SQL引擎依赖UC进行权限检查。尽管UC引入了额外配置需求,但它简化了大规模工作空间的权限管理。
最低0.47元/天 解锁文章
389

被折叠的 条评论
为什么被折叠?



