Amazon是如何用数据湖解决大数据挑战的?

原文链接:How Amazon is solving big-data challenges with data lakes

当杰夫•贝佐斯过去在车库里完成订单,亲自把包裹送到邮局时,成本计算、库存跟踪和未来需求预测还相对简单。25年后,亚马逊的零售业务在全球拥有超过175个营运中心(FC),拥有超过250000名全职员工,每天运送数百万件商品。

亚马逊的全球金融运营团队有一项令人难以置信的任务是来跟踪所有这些数据(PB级)。在亚马逊的规模下,一个计算错误的指标,比如单位成本,或者延迟的数据都会产生巨大的影响(想想几百万美元)。该团队一直在寻找获得更准确、更快的数据的方法。

这就是为什么在2019年,他们有了一个想法:建立一个能够支持地球上最大的物流网络之一的数据湖。它后来在内部被称为星系数据湖。星系数据湖建于2019年,现在所有的团队都在努力将他们的数据移入其中。

数据湖是一个集中的安全存储库,允许您以任何规模存储、管理、发现和共享所有结构化和非结构化数据。数据湖不需要预定义的模式,因此您可以处理原始数据,而不必知道将来可能需要探索哪些方向。下图显示了数据湖的关键组件。
在这里插入图片描述

大数据的挑战

亚马逊在大数据面前所面临的挑战与许多其他公司面临的挑战相似:数据孤岛、分析不同数据集的困难、数据控制、数据安全以及整合机器学习(ML)。让我们仔细看看这些挑战,看看数据湖如何帮助解决它们。

打破数据孤岛

公司选择创建数据湖的一个主要原因是打破数据孤岛。在数据零散分布,由不同的群体控制,这必然会使数据变得模糊。这通常发生在公司快速发展和或收购新业务时。就亚马逊而言,两者兼而有之。
为了在国际上扩张并快速创建新的配送计划(例如,免费同日送货或亚马逊新鲜),大多数运营计划团队都控制着自己的数据和技术。因此,数据存储在不同的地方,以不同的方式存储。这种方法允许每个团队解决问题,响应客户需求,并更快地创新。然而,在组织和公司范围内需要从许多不同的来源手动收集数据,那使数据发挥其作用就变的更困难。由于如此多的团队独立运作,我们失去了通过共同解决问题所能达到的效率。

从数据中获取细节也很困难,因为不是每个人都可以访问各种数据存储库。对于较小的查询,您可以在电子表格中共享数据片段。但当数据超过电子表格的容量时(这种情况经常发生在大公司身上)时,就会出现挑战。在某些情况下,你可以分享一个更高层次的数据摘要,但你真的没有得到完整的信息。

数据湖通过将所有数据合并到一个中心来解决这个问题。团队可以继续作为灵活的单位发挥作用,但所有道路都通向数据湖进行分析,不再有数据孤岛。

分析不同的数据集

使用不同系统和方法进行数据管理的另一个挑战是数据结构和信息各不相同。例如,亚马逊和亚马逊都有新鲜食品数据中心,而亚马逊则有包装食品数据中心。甚至航运计划在国际上也不尽相同。例如,不同的国家有时有不同的盒子大小和形状。还有越来越多的非结构化数据来自物联网(IoT)设备(如履行中心机器上的传感器)。

更重要的是,不同的系统可能也有相同类型的信息,但标签不同。例如,在欧洲,使用的术语是“单位成本”,但在北美,使用的术语是“每包成本”。这两个术语的日期格式不同。在这种情况下,需要在两个标签之间建立一个链接,以便分析数据的人知道它引用的是同一个东西。

如果您想在没有数据湖的传统数据仓库中组合所有这些数据,则需要大量的数据准备和导出、转换和加载(ETL)。你必须在保留和丢弃之间做出权衡,并不断地改变死板系统的结构。

数据湖允许您以任何格式导入任意数量的数据。因为没有预定义的架构。您甚至可以实时接收数据。您可以从多个源收集数据,并将其以原始格式移动到数据湖中。您还可以在标记不同但表示相同内容的信息之间建立链接。将所有数据移动到数据湖还可以改进传统数据仓库的功能。您可以灵活地将高度结构化、频繁访问的数据存储在数据仓库中,同时还可以将结构化、半结构化和非结构化数据保留在数据湖存储中。

管理数据访问

由于数据存储在如此多的位置,因此很难同时访问所有数据并链接到外部工具进行分析。亚马逊的运营财务数据分布在超过25个数据库中,各区域团队创建了自己的本地版本的数据集。这意味着对某些人来说超过25个访问管理凭据。许多数据库需要访问管理支持来执行更改配置文件或重置密码等操作。此外,必须对每个数据库进行审计和控制,以确保没有人有不当的访问权限。

有了数据湖,就更容易在正确的时间将正确的数据传递给正确的人。与管理存储数据的所有不同位置的访问不同,您只需担心一组凭据。数据湖具有允许授权用户查看、访问、处理和/或修改特定资产的控件。数据湖有助于确保阻止未经授权的用户采取可能损害数据机密性和安全性的操作。

使用数据湖,数据以开放格式存储,这使得使用不同的分析服务更容易。开放格式还使得数据更容易与甚至还不存在的工具兼容。您组织中的各种角色,如数据科学家、数据工程师、应用程序开发人员和业务分析师,可以通过他们选择的分析工具和框架来访问数据。

您不必局限于一小部分工具,而更多的人可以理解这些数据。

加速机器学习

数据湖是ML和AI(人工智能)的有力基础,因为ML和AI在大而多样的数据集上茁壮成长。ML使用从现有数据中学习的统计算法,一个称为训练的过程,来对新数据做出决策,这个过程称为推理。在训练期间,数据中的模式和关系被识别出来以构建模型。该模型允许您对以前从未遇到过的数据做出智能决策。您拥有的数据越多,就可以更好地训练ML模型,从而提高准确性。

亚马逊全球运营财务团队的最大职责之一是规划和预测亚马逊供应链的运营成本和资本支出,该供应链包括整个运输网络、数百个配送中心、分拣中心、配送站、全食配送点、新鲜取件点等。它们有助于回答重要的高层问题,例如“我们明年将运送多少个包裹?”以及“我们将在薪水上花多少钱?”他们还提出了一些非常具体的问题,比如“下个月我们在佛罗里达州坦帕需要多少盒每种尺寸的盒子?”
在这里插入图片描述
你的预测越准确越好。如果你估计得太低或太高,可能会产生负面影响,影响到你的客户和你的底线。例如,在亚马逊,如果我们预测需求太低,那么履行中心的仓库工作人员可能没有足够的货源,或者没有足够的司机,这可能导致包裹延迟,更多的客户服务电话,订单被取消,以及失去客户的信任。如果我们的预测太高,你可能会有库存和箱子在仓库里占据宝贵的空间。这种情况意味着需求更高的产品的空间变小了。

像亚马逊这样的大多数组织都会花费大量时间来预测未来。幸运的是,ML可以改进预测。去年,亚马逊运营财务团队做了一个测试。他们提取了一部分预测数据,并将传统的手工流程与亚马逊预测(Amazon Forecast)进行了对比,后者是一种完全管理的服务,使用机器学习来提供高度准确的预测。在这次试运行中,由Forecast完成的预测平均比手工过程完成的预测准确67%。

通过将所有数据转移到一个数据湖中,亚马逊的运营财务团队可以组合数据集来训练和部署更精确的模型。用更多相关数据训练ML模型可以提高预测的准确性。此外,它使那些手动执行此任务的员工能够自由地从事更具战略性的项目,例如分析预测以推动现场运营改进。

使用正确的工具:AWS上的Galaxy

亚马逊的零售业务使用了一些早于亚马逊网络服务(AWS)创建的技术,该服务始于2006年。为了提高可伸缩性、效率、性能和安全性,亚马逊零售业务中的许多工作负载在过去十年中都转移到了AWS。银河数据湖是一个更大的大数据平台的重要组成部分,在内部称为星系。下图显示了Galaxy依赖AWS的一些方式以及它使用的一些AWS服务。
在这里插入图片描述
Galaxy data lake是基于Amazon Simple Storage Service(Amazon S3)构建的,这是一种提供无与伦比的可用性、耐用性和可伸缩性的对象存储服务。一些数据还保存在Amazon专有的基于文件的数据存储、Andes和elasticdataexchange上,这两个都是amazons3之上的服务层。其他一些数据源包括数据仓库Amazon Redshift、Amazon关系数据库服务(Amazon RDS)、关系数据库和企业应用程序。

AWS Glue是一个完全管理的ETL服务,它使您能够轻松地准备和加载用于分析的数据,AWS数据库迁移服务(AWS DMS)用于将各种数据集装载到amazons3。Galaxy将来自多个服务(包括Amazon Redshift、Amazon RDS和AWS Glue Data Catalog)的元数据资产组合到一个基于Amazon DynamoDB(一个键值和文档数据库)的统一目录层中。Amazon Elasticsearch服务(Amazon ES)用于在目录上实现更快的搜索查询。

在数据被编目(载入)之后,各种服务将在客户端层使用。例如,Amazon Athena,一个交互式查询服务,用于使用标准SQL进行特别的探索性查询;Amazon Redshift,一个用于更结构化的查询和报告的服务;Amazon SageMaker,用于机器学习。

AWS湖组

亚马逊团队从头开始创建了银河数据湖架构。他们不得不在几个月内手动开发许多组件,这与其他公司过去的做法类似。2019年8月,AWS发布了一项名为AWS Lake Formation的新服务。它允许您简化数据湖的创建过程,并在数天内而不是数月内构建一个安全的数据湖。Lake Formation帮助您从数据库和对象存储中收集和分类数据,将数据移动到新的Amazon S3数据湖中,使用机器学习算法清理和分类数据,并安全访问敏感数据。

Summary

通过以基于开放标准的数据格式将数据存储在统一的存储库中,数据湖允许您打破孤岛,使用各种分析服务从数据中获得最深刻的见解,并随着时间的推移经济高效地增长您的存储和数据处理需求。

对于亚马逊的金融运营团队来说,银河数据湖将为其全球用户提供综合体验。Galaxy的基础设施于2019年建成,现在各种数据库系统正在进入数据湖。使用该工具的团队现在已经看到了它的好处,比如取消了手动流程和笨重的电子表格,提高了生产率,并有更多的时间用于增值分析。我期待着关注团队今年的进展,看看数据湖如何继续为他们提供更好、更快的数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值