产生问题的原因?
在DataHub v0.8.24 之前,元数据模型不支持同一平台类型的多个实例,原因详见下面的描述。
DataHub的元数据模型针对数据集【Dataset】的唯一标识URN由如下三个部分级成:
- Data Platform 数据平台:如 urn:li:dataPlatform:mysql
- Name 数据集名称,常用的格式是:db.schema.name
- Env 环境:如DEV、PROD等
如果在同一环境下,某一系统使用了同一平台类型的多个实例,如针对不同的业务,使用了多个MySQL实例,如果要查看所有实例的数据集资产,则这些数据集的唯一标识URN可能存在冲突。
如何支持同一平台类型的多个实例?
DataHub v0.8.24+的版本,从如下2个方面,在元数据模型中支持平台实例:
- 在数据集添加dataPlatformInstance Aspect,允许数据集与平台的实例相关联
- 对所有摄取源进行增强
- 在配置中通过增加platform_instance配置项