WhereHows提供对结构化和非结构化元数据的全面管理,具有强大的数据目录和搜索功能,便于数据发现和使用,由LinkedIn开源,拥有强大的社区支持和文档资源。
适合需要全面元数据管理和数据目录功能的公司,尤其是大型互联网企业或拥有海量数据的企业。提供了直观的Web界面,用户可以通过浏览器访问该平台,进行数据发现、血缘查看、注释、讨论等操作。界面简洁易用,方便非技术人员也能快速上手。
同时提供了后台API,供开发者进行自动化集成和扩展。开发人员可以通过API与其他数据处理系统、工作流工具等进行集成,实现元数据管理的自动化流程,如自动捕获和更新元数据等。
一、功能特点
1.数据发现:允许用户通过搜索功能快速找到所需的数据。支持对数据集名称、描述、所有者、标签等元数据信息进行搜索,帮助数据工程师、分析师和其他数据工作者在庞大的数据集中快速定位到目标数据。
2.数据血缘:能够跟踪数据集和任务的上下游关系,清晰展示数据的来源、流向和转换过程。用户可以了解到每个数据集是由哪些任务产生的,以及该数据集又被哪些后续任务所使用,便于追踪数据的演化历史和影响范围。
3.工作流发现:通过项目、流、子流、任务的树结构,直观地查看任务血缘。用户可以清晰地了解到整个工作流的执行情况和任务之间的依赖关系,有助于发现潜在的问题和优化工作流程。
4.统一元数据服务:从各种数据源收集元数据,并进行标准化处理,提供统一的元数据模型。支持多种常见的数据存储和处理系统,如Hadoop HDFS、Apache