大数据元数据和数据管理框架
Apache Atlas实践
今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容:
•Apache Atlas简介•Apache Atlas架构•Titan图数据库介绍•ApachAtlas配置•Apache Atlas案例•总结
Apache Atlas简介
•面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它如何随时间而变化?采用Hadoop必须考虑数据管理的实际情况,元数据与数据治理成为企业级数据湖的重要部分
•为寻求数据治理的开源解决方案,Hortonworks公司联合其他厂商与用户于2015年发起数据治理倡议,包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理等方面。Apache Atlas 项目就是这个倡议的结果,社区伙伴持续的为该项目提供新的功能和特性。该项目用于管理共享元数据、数据分级、审计、安全性以及数据保护等方面,努力与Apache Ranger整合,用于数据权限控制策略。
Atlas主要功能
•数据分类
定义、注释和自动捕获数据集和底层之间的关系元素包括源、目标和派生过程
•安全审计
数据访问的日志审计
•搜索和血缘关系
元数据信息及数据之间的血缘
•安全与策略引擎
结合ApacheRanger来设置数据的访问权限
Atlas架构
Atlas Core
•
Type System
:
Atlas
允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为
“
类型
”
的定义组成
。
“
类型
”
(类)的
实例被称为
“
实体
”
表示被管理的实际元数据对象。类型系统是一个组件,允许用户定义和管理类型和实体。由
A