Atlas是一组可伸缩和可扩展的核心基础治理服务——使企业能够有效地满足Hadoop中的遵从性需求,并允许与整个企业数据生态系统集成。Apache Atlas为组织提供了开放的元数据管理和治理功能,以构建数据资产目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作功能。
type system
1.type
type类似java 的类,定义元数据兑现的特殊类型
atlas 自定义的type 有几种 : DataSet(继承自Referenceable 如hive_db,hive_table都是这种类型)
Referenceable(这种类型代表所有可以用一个唯一特征qualifiedName搜索的所有entity)
Asset(继承自Referenceable 此类型扩展了Referenceable,并添加了诸如名称,描述和所有者之类的属性。名称是必填属性(isOptional = false),其他是可选属性。Referenceable和Asset的目的是为建模者提供一种在定义和查询自己类型的实体时强制保持一致性的方法。拥有这些固定的属性集后,应用程序和用户界面就可以根据约定对默认情况下可以期望的类型做出哪些假设。)
Infastructure(继承自Referenceable 如clusters hosts)
process(继承自asset 用来表示任何数据转换 例如从一个hive表转换成另一个hive表 process 有input和output,input和output都是dataset类型 因此利用process可以捕获dataset血缘)