领英,优步,爱彼迎,网飞如何进行机器学习的数据管理和数据发现

  科技巨头已经建立了独特的架构来管理大规模机器学习解决方案中的数据集。

  

领英,优步,爱彼迎,网飞如何进行机器学习的数据管理和数据发现

  > Source: blog.netapp/how-to-use-machine-learning-data-management

  我最近开始了一份有关AI教育的新时事通讯。TheSequence是无BS(意味着没有大肆宣传,没有新闻等),它是专注于AI的新闻通讯,需要5分钟的阅读时间。目的是使您了解机器学习项目,研究论文和概念的最新动态。请通过以下订阅尝试一下:

  在机器学习方面,数据无疑是新的动力。管理数据集生命周期的过程是大规模机器学习解决方案中最具挑战性的元素。数据摄取,索引编制,搜索,注释,发现是维护高质量数据集所需的一些方面。这些挑战的复杂性随着目标数据集的大小和数量线性增加。尽管为单个机器学习模型管理训练数据集相对容易,但在数千个数据集和数百个模型之间扩展该过程可能成为噩梦。诸如LinkedIn,Uber,Netflix,Airbnb或Lyft之类的处于机器学习创新前沿的公司当然已经经历了这一挑战的规模,并已经建立了具体的解决方案来应对这一挑战。今天,我想向您介绍一些可以在您的机器学习之旅中激发灵感的解决方案。

  高质量的机器学习需要高质量的数据集,而这些数据集很难生成。随着机器学习的发展,对使训练和测试数据集的生命周期管理自动化的工具和平台的需求变得越来越重要。有点自相矛盾的是,机器学习框架的发展速度比相应的数据管理工具集快了几个数量级。今天,我们拥有数十个高质量的开发框架,这些框架结合了深度学习领域的最新研究,而用于管理支持机器学习模型的数据集生命周期的平台仍处于起步阶段。为了解决这一挑战,Uber或LinkedIn等快速发展的技术公司被迫构建自己的内部数据生命周期管理解决方案,以支持不同组的机器学习模型。让我们看看他们是如何做到的。

  LinkedIn的数据中心

  数据中心是LinkedIn数据分析堆栈的最新成员。LinkedIn的数据中心的核心焦点是自动化与数据集以及其他实体(例如机器学习模型,微服务,人员,组等)相关的元数据的收集,搜索和发现。具体地说,数据中心旨在实现四个特定目标:

  · 建模:以对开发人员友好的方式对所有类型的元数据和关系进行建模。

  · 摄取:通过API和流大规模摄取大量的元数据更改。

  · 服务:大规模服务收集的原始元数据和派生的元数据,以及针对元数据的各种复杂查询。

  · 索引:按比例索引元数据,并在元数据更改时自动更新索引。

  为了实现上述功能,Data Hub是最新技术堆栈,其中包括LinkedIn内部开发的几个框架。例如,使用Pegasus数据模式语言对存储在Data Hub中的所有元数据构造进行建模,该语言是LinkedIn几年前孵化的。同样,为数据中心提供支持的API基于LinkedIn的Rest.li架构,可实现高度可扩展的RESTful服务。LinkedIn的数据存储技术(例如Expresso或Galene)还用于存储元数据表示,其方式可以实现各种用例,例如搜索或复杂的关系导航。为了抽象化这些不同类型的存储,Data Hub使用一组通用的数据访问对象(DAO),例如键值DAO,查询DAO和搜索DAO。这允许将Data Hub与不同的基础存储技术一起使用。

  

领英,优步,爱彼迎,网飞如何进行机器学习的数据管理和数据发现

  LinkedIn数据中心的强大后端体系结构辅以简单的用户界面,使用户能够搜索和发现元数据元素。

  

领英,优步,爱彼迎,网飞如何进行机器学习的数据管理和数据发现

  优步的数据手册

  Databook是支持Uber数据科学工作流程中的数据发现和生命周期管理的主要平台。Databook平台可管理和显示有关Uber数据集的丰富元数据,从而使Uber的员工能够在Uber探索,发现和有效利用数据。从概念上讲,Databook旨在实现四个关键功能:

  · 可扩展性:易于添加新的元数据,存储和实体。

  · 可访问性:服务可以以编程方式访问所有元数据。

  · 可扩展性:支持高通量读取。

  · 赋能:跨数据中心读写。

  当前的Databook体系结构可以处理来自多种数据存储系统的元数据,包括Vertica,PostgreSQL,MySQL等。最终,元数据将在基于ElasticSearch的存储库中建立索引,并通过由Dropwizard(一种用于高性能RESTful Web服务的Java框架)提供支持的RESTful API浮出水面。

  

领英,优步,爱彼迎,网飞如何进行机器学习的数据管理和数据发现

  数据手册允许用户使用基于React,Redux和D3.js的简单Web界面搜索和浏览与特定资产相关的元数据。

  

领英,优步,爱彼迎,网飞如何进行机器学习的数据管理和数据发现

  Airbnb的数据门户

  与许多其他快速发展的技术公司一样,Airbnb也经历了为这些数据资产启用生命周期管理和发现层的挑战。数据门户是满足这些要求的解决方案。买手游平台数据端口以连接图的形式捕获有关不同数据资产的元数据信息。图中的节点是各种资源:数据表,仪表板,报告,用户,团队,业务成果等。它们的连通性反映了它们之间的关系:消费,生产,关联等。

  

领英,优步,爱彼迎,网飞如何进行机器学习的数据管理和数据发现

  Dataportal技术堆栈基于Neo4J和ElasticSearch作为主要数据存储组件。平台上的API由Flask框架提供支持,UI基于React和Redux。

  Airbnb的Dataportal的最终实现是一个精巧的用户界面,它可以搜索,协作和发现与公司数据集有关的元数据。

  

领英,优步,爱彼迎,网飞如何进行机器学习的数据管理和数据发现

  Lyft的Amundsen

  Amundsen是Lyft的元数据提取,搜索和发现平台。该平台以挪威探险家Ronald Amundsen的名字命名,最初旨在提高数据分析师,数据科学家和工程师与数据交互时的生产力。从体系结构的角度来看,Amundsen提供了一层数据收集,该数据收集与一系列数据库以及用于元数据管理和搜索的微服务集成。

  

领英,优步,爱彼迎,网飞如何进行机器学习的数据管理和数据发现

  Amundsen微服务抽象了平台的核心功能。当前版本的Amundsen包括以下微服务:

  · amundsenfrontendlibrary:前端服务,它是带有React前端的Flask应用程序。

  · amundsensearchlibrary:利用Elasticsearch的搜索功能的搜索服务用于增强前端元数据搜索。

  · amundsenmetadatalibrary:元数据服务,利用Neo4j或Apache Atlas作为持久层,以提供各种元数据。

  · amundsendatabuilder:用于构建元数据图和搜索索引的数据摄取库。用户可以使用带库的python脚本或导入库的Airflow DAG加载数据。

  Amundsen将其后端架构与简单的用户体验相结合,从而可以搜索和浏览数据集。

  

领英,优步,爱彼迎,网飞如何进行机器学习的数据管理和数据发现

  Netflix Metacat

  Netflix一直是大数据空间中开源技术的积极贡献者,数据发现和管理也不例外。Metacat是Netflix的解决方案,用于自动化元数据资产的生命周期。从功能上讲,Metacat是一种联合服务,提供统一的REST / Thrift接口来访问各种数据存储的元数据。总体而言,Metacat提供以下功能:

  · 数据抽象和互操作性

  · 业务和用户定义的元数据存储

  · 数据发现

  · 数据变更审核和通知

  · Hive Metastore优化

  Metacat体系结构结合了与不同数据存储集成的连接层,捕获与数据资产相关的元数据的存储层和支持对元数据元素进行搜索和查询的API层。

  

领英,优步,爱彼迎,网飞如何进行机器学习的数据管理和数据发现

  与该领域的其他解决方案不同,Metacat主要关注启用元数据搜索和发现所需的后端基础结构。API的简单性有助于根据特定要求实现不同的数据目录前端。

  如您所见,对于某些技术发展最快的公司,元数据发现和管理是一个活跃的开发领域。机器学习的快速发展将继续增加数据发现和管理的相关性,我们应该很快看到其中一些解决方案已被用作主流机器学习堆栈的一部分。

  (本文由闻数起舞翻译自Large-Scale Data Quality Verification in .NET PT.1的文章《How LinkedIn, Uber, Lyft, Airbnb and Netflix are Solving Data Management and Discovery for Machine Learning Solutions》

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值