re:Invent 2023 | 亚马逊S3数据湖在LexisNexis实现弹性

关键字: [Amazon Web Services re:Invent 2023, Clumio, S3 Data Lake Resilience, Instant Access Restore, Lexisnexis Architecture, Clumio Backup Solution, Cloudfront Origin Integration]

本文字数: 900, 阅读完需: 4 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV11g4y1o7Ra

导读

LexisNexis 在亚马逊S3上积累了数十亿份法律和新闻文件的海量数据湖,为成千上万的法律、风险管理和政府机构提供服务。在这次闪电演讲中,了解LexisNexis如何通过利用备份快速建立辅助数据湖,在出现中断、数据丢失或对抗事件时确保弹性。探索LexisNexis减少其800テビバイ特亚马逊S3环境的恢复时间从数天到数小时的备份和恢复架构。本演讲由Clumio(亚马逊合作伙伴)呈现。

演讲精华

以下是小编为您整理的本次演讲的精华,共600字,阅读时间大约是3分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

The video content primarily features a profound dialogue between Clumio联合创始人兼CTO Wun Jong and Mark Ser, CEO of LexisNexis. LexisNexis is a global provider in the fields of law, regulation, and business information, with an online database containing over 144 billion unique records and adding approximately 1.2 million new records daily. Mark's engineering team is responsible for managing the vast data lake architecture at LexisNexis, which stores most of the critical business information.

The implementation of the data lake follows a completely serverless design, with no virtual private cloud environment even within their Amazon Web Services account. This enables high scalability to adapt to peak loads from multiple sources of input content. Despite the average document size in the data lake being only 35KB, LexisNexis adds between six and twelve million new documents hourly. This demonstrates the high frequency of changes in the data lake, requiring a resilient and adaptive underlying infrastructure layer. As a completely stateless service, LexisNexis leverages Amazon Web Technology's CloudFront as the front-end delivery network to its data lake. CloudFront provides disaster recovery functionality through automatic failover requests between replicated S3 storage buckets in at least two regions.

Despite the disaster recovery issue being addressed through the implementation of CloudFront, LexisNexis seeks additional data protection in the form of immutable and air-isolated backups to ensure that the data is not even impacted by accidental or malicious actions by internal employees. LexisNexis requires backups with a low RPO (recovery point objective) of 15 minutes and a low RTO (recovery time objective) from backup restoration. These metrics aim to minimize potential income losses.

Due to the size and speed of change of the LexisNexis data lake, assessing backup solutions presents significant challenges:

  • One S3 storage bucket contains 26 billion records
  • The total storage exceeds 100 terabytes
  • Between six and twelve million small objects are added or deleted hourly
  • It would take six months to refill the data lake using traditional backup methods

为了应对这些挑战,Clumio为每个客户的专用亚马逊云科技账户实施了一个具有弹性的备份解决方案。这个解决方案完全是无服务器的,所有的处理和保留都是由通过动态扩展的Lambda函数来协调。通过CloudFormation模板实现轻量级部署,将必要的访问角色和资产安装到客户账户中。S3库存和事件提供了高效的更改跟踪,以实现15分钟的RPO目标。

Clumio的一项关键创新是即时访问功能。在恢复过程中,传统的方法是需要完全复制备份数据,这对于LexisNexis这样的大规模和快速变化的环境来说是不切实际的。即时访问提供了一个S3终点,可以立即访问所需的恢复点,而不是等待完整副本。这使得在复制100TB数据所需的几天内能够直接在几小时内访问。通过进一步定制,可以将即时访问与CloudFront原始组集成,使备份可以直接作为故障切换原始服务器可用,同时重新填充主要的S3存储桶。在测试中,Clumio成功地在不到3小时内恢复了260亿条记录和100TB的LexisNexis数据的访问。

总的来说,Clumio与LexisNexis的合作产生了一个具有弹性的S3数据湖备份解决方案,特别满足了大规模需求。这次合作还推动了诸如即时访问等技术创新,解决了关于恢复时间目标的真实客户挑战。随着LexisNexis的需求演变,两家公司紧密合作以持续优化该解决方案。

下面是一些演讲现场的精彩瞬间:

领导者要求在演讲中让Mark进行自我介绍。

亚马逊云科技在Amazon S3中提供了多种数据备份解决方案,旨在帮助客户从操作错误、网络攻击中恢复,并满足各种合规性要求。

其高度可扩展的无服务器架构能够轻松处理每小时新增的数百万新文档。

领导者详细解释了如何为每位客户创建一个专属的Amazon云科技账户,以便在无服务器环境中安全地处理他们的数据。

领导者强调了Cumia如何在不到三小时内成功恢复260亿条记录,从而在无缝迁移存储回主要系统的同时,快速访问关键数据。

此外,亚马逊云科技的即时访问功能能够以更低的成本和时间迅速重现以往的数据状态。

总结

该视频探讨了如何利用Clumio的备份和恢复功能,为LexisNexis大型S3数据湖实现数据灵活性。LexisNexis拥有100TB容量、260亿条记录的S3数据湖,每天新增600万到1200万个对象。他们需要一个S3备份解决方案以防止意外事故、网络攻击或合规需求导致的数据丢失。其要求包括15分钟的RPO(恢复点目标)、快速的RTO(恢复时间目标)和稳定性。Clumio提供了无缝的上船过程以无中断地无服务器备份S3数据。一项关键创新是"即时访问"——提供S3端点以立即访问备份数据,同时并行执行恢复。这使得他们在不到3小时内就能恢复整个数据湖。LexisNexis将即时访问与CloudFront源代码组集成以实现快速的灾难恢复故障切换。可选的对象标记和删除操作的选择性备份等定制选项优化了成本。这一合作伙伴关系展示了Clumio处理大规模数据的能力以及诸如即时访问和低RTO恢复等创新功能。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134862191

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

  • 16
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李白的朋友高适

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值