WhereHows 数据发现和管理工具
WhereHows 是 LinkedIn 公司一个用于大数据发现和管理的工具,集成了所有主要的数据处理系统,可以进行分类收集和元数据操作。方便内部员工发现公司内部的数据,跟踪数据集的移动和查看各种内部工具和服务的动向。
WhereHows 可以解决很多公司面临的大数据内部分享的问题,提供一个平台让员工进行企业有价值的数据发现和进行一些更深度的分享。当前 LinkedIn 的 WhereHows 存储的数据: 50,000 数据集,14,000 评论和 3500 万作业执行。
1 系统介绍
WhereHows是linkedin开源的数据发现平台,它从各种数据源收集元数据,标准化处理,提供统一的元数据服务。WhereHows的名字与warehouse谐音。同时,还包含了两层含义:
- Where:数据在哪,即元数据收集。
- How:数据的前世今生,生产者、消费者是谁,即血缘。
在统一元数据的基础上,平台提供了一系列功能:
- 数据发现:搜索数据。
- 数据血缘:跟踪数据集和任务的上下游。
- 工作流发现:通过项目、流、子流、任务的树结构,查看任务血缘。
- 提供页面访问及后台API。
2 架构介绍
2.1 总览
官方架构图: