目录
1、定位
Apache Atlas:Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。
Linkedin WhereHows:WhereHows是LinkedIn公司为了方便员工发现公司内部数据、跟踪数据集移动、查看各种内部工具和服务的动向,而开发的用于大数据发现和管理的工具。它从不同的源系统中采集元数据,并进行标准化和建模,从而作为元数据仓库完成血缘分析。
Linkedin DataHub:WhereHows项目已于2018年重新被LinkedIn公司设计为DataHub项目。
2、厂商
Apache Atlas:Atlas最早由HortonWorks公司开发,用来管理Hadoop项目里面的元数据,进而设计为数据治理的框架。后来开源出来给Apache社区进行孵化,目前得到Aetna,Merck,Target,SAS,IBM等公司的支持进行发展演进。因其支持横向海量扩展、良好的集成能力和开源的特点,国内大部分厂家选择使用Atlas或对其进行二次开发。
Linkedin WhereHows&DataHub:由LinkedIn开源,并主要在LinkedIn内部使用。外部应用比较少,暂时没有看到相关应用案例。
3、功能概述
Apache Atlas 章节详细讲解
4、架构
Apache Atlas 章节详细讲解