元数据管理-解决方案调研二:元数据管理解决方案——Saas/内部解决方案(4)

Saas/内部解决方案

2.12、Spotify Lexicon

Lexikon是一个数据洞察库,可帮助用户查找和理解生成的数据和知识的一套内部产品,其目的是为了改善数据发现体验
地址:How We Improved Data Discovery for Data Scientists at Spotify - Spotify Engineering : Spotify Engineering

2.13、Airbnb Data Portal

地址:https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770
Airbnb内部的产品用于提升数据可发现性和探索性,建立对数据的信任。其主要功能有以下几点:
1、搜索:Dataportal 最重要的功能是对整个数据生态系统的统一搜索。用户可以搜索日志记录、数据表、图表、仪表板。搜索卡中尽可能多地显示有关资源的元数据,以建立上下文和信任。利用图的拓扑来提高搜索相关性,使用 PageRank 来推广高质量的相关资源,有据可查和经常使用的资源将导致更高的分数,这有助于确保搜索将用户吸引到最理想的实体。
2、上下文和元数据:从搜索中,用户可以通过访问其详细内容页面来进一步探索资源。没有上下文的数据通常毫无意义,可能会导致不明智和代价高昂的决策。因此,内容页面展示了拥有的跨数据工具资源的所有信息,以显示它如何适应整个数据生态系统:谁使用了资源,谁创建了它,它何时被创建或更新,它与哪些其他资源相关, 等等。
更多的元数据转化为更多的数据。对于数据表尤其如此,它是任何数据仓库的基础。易于编辑的元数据信息方便了表描述和列注释的更新,绕过了复杂和用户受限的命令。
3、以用户为中心的数据:Dataportal提供了一个专门的用户页面来整合用户创建、使用、收藏的所有数据资源,同时企业中的任何员工都可以查看任何其他员工的页面,这从生产和消费的角度都提高了透明度。
4、以团队为中心的数据:Dataportal提供了一个专门的团队页面,因为团队有他们查询的表格、他们创建和查看的仪表板、他们跟踪的团队指标等等。这样就可以把团队间链接起来,方便快速定位管理项目。

2.14、Facebook Nemo

Nemo是一个内部数据发现引擎,致力于让数据发现过程变得更加简单快速并对结果的准确性充满信心。
Nemo使用较复杂的搜索引擎架构实现可扩展性,同时能够解析和回答自然语言查询。例如,您可以问“Instagram 上每周有多少活跃用户?”并获取指向包含相关数据的表的地址。
地址:https://engineering.fb.com/2020/10/09/data-infrastructure/nemo/
搜索引擎架构:

Nemo 有两个主要组件,索引和服务,前端位于服务部分的顶部。索引又分为批量索引(每天发生)和即时索引(立即更新索引)。因此,无论何时创建 Hive 表,即时更新都保证可以在几秒钟内按名称或创建者找到它。例如过去一个月访问该表的工程师数量,是在更繁重的批量过程中收集的,可能会滞后一两天。虽然最大的数据源(例如 Hive)由 Nemo 本身的工程师处理,但创建新型数据工件的工程师可以通过调用 Nemo API 自行搜索他们的工件。
对于服务,基于 spaCy 的 NLP 库执行文本解析;检索和初始排名步骤由 Unicorn 处理,更复杂的信号(如基于 kNN 的评分和 FBLearner 训练的 ML 模型)用于后处理。此外,在后处理过程中会考虑各种社交信号——例如给定工件的用户列表。无文本查询通常只是类型和质量限制的列表,经过特殊处理,最终得分强调个人和团队级别的使用。
前端负责显示结果和其他各种技术细节,例如提供查询构建系统,以便用户可以轻松指定多个限制,这些限制可以简单地转换为 Unicorn 查询。它还突出显示重复或低质量的工件,以引导用户做出正确的选择。

2.15、Alation

地址:Enterprise Data Catalog & Data Governance | Alation
特点:
1、数据治理促进增长:Alation 的主动数据治理以人为本,因此人们可以访问他们需要的数据,并在工作流程中提供有关如何使用数据的指导

2、自助分析:共享查询以跨团队协作。欢迎更多人使用数据,并支持大规模的快速数据驱动决策。

3、支持迁移

4、搜索与发现:为组织中的所有数据和数据用户提供单一的参考系统。一目了然地了解数据质量、上下文和使用模式

2.16、Collibra

Collibra 的数据智能云致力于整个公司的每个人、团队和系统与准确、可信的数据保持一致——将人们与事实结合起来,激发推动业务发展。其产品特点如下:
1、通过认证报告推动战略决策:由于业务术语和指标的不一致,组织通常对执行报告缺乏信任。Collibra的解决方案有助于集中、管理和认证报告和指标,从而节省大量成本。
2、提高数据湖的采用率和投资回报率:由于缺乏可管理性、可追溯性和数据访问策略,企业数据湖经常成为数据沼泽。Collibra的解决方案可帮助用户安全、合规地发现、理解、信任和访问其数据湖中的数据
3、利用数据基础加速隐私操作:组织通常缺乏可靠的数据基础来以可扩展的方式响应监管要求。Collibra的解决方案有助于集中、自动化和指导数据隐私工作流程,以支持全球法规
4、通过识别重复数据降低成本:许多组织在不知不觉中购买了类似的第三方数据集。Collibra的解决方案有助于自动识别重复数据集,使数据专业人员能够轻松清除重复数据。
地址:Collibra: Data Catalog, Data Governance & Data Quality | Collibra 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

mylife512

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值