亚马逊OpenSearch:无需ETL就能实现强大的向量搜索

关键字: [Amazon Web Services re:Invent 2023, Vector Database, Vector Embeddings, Generative Ai, Opensearch Service, Zero Etl]

本文字数: 1300, 阅读完需: 6 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV17G411v7tC

导读

欢迎加入我们,深入了解本周亚马逊OpenSearch服务的最新公告。了解更多关于亚马逊OpenSearch无服务器的向量引擎新功能的细节,并了解如何高效地存储和查询数十亿个向量嵌入,而无需管理向量数据库基础设施。听听关于新的零ETL集成的全部内容,该集成重构了OpenSearch查询引擎,以支持对存储在Amazon S3中的数据进行分析,以及与Amazon DynamoDB的零ETL集成。最后,看看新的实例类型如何帮助您获得更高的性价比,同时也提高了数据的可靠性和持久性。

演讲精华

以下是小编为您整理的本次演讲的精华,共1000字,阅读时间大约是5分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

首先,将企业数据提取为捕捉语义意义的向量嵌入;然后,将这些向量加载到向量数据库中;接着,将用户的查询转换为向量;随后,从数据库中检索相似的向量;最后,将结果输入到生成性的LLM中以创建回应。

高性能向量搜索成为了关键驱动力。在OpenSearch服务上引入了向量引擎,这是一个完全管理的向量数据库。用户可以轻松地创建数据的可视化表示,然后存储数十亿个向量,以实现毫秒级的上下文结果快速相似性查询。该系统是基于OpenSearch无服务器构建的,可以独立自动调整存储和计算规模。

向量引擎采用hnsw算法进行近似最近邻搜索。它支持欧几里得和余弦相似度。高效的过滤和复合查询类型也可用。

入门非常容易——创建一个向量集合和索引,加载向量,然后查询语义匹配。实时向量更新处理得非常出色,不会降低搜索性能。速度非常惊人——1OCU可以在仅毫秒内处理200万个向量,准确率99%。包括强大的安全性、加密和访问控制。成本通过自动缩放OCU来优化,而没有副本的新2OCU部署可以降低成本50%——非常适合实验。

一个令人兴奋的使用案例是与Amazon Bedrock集成,它将向量自动传入到向量引擎中,以简化RAG应用程序的构建。还有与SageMaker和Amazon Lambda的集成。

总的来说,向量引擎为应用程序提供了轻松添加大规模向量相似性搜索的方法。

关注点转向优化Opensearch成本,推出了R6g实例系列。它解除了索引与复制之间的耦合,以提高效率。通常,主分片必须在其他节点完成复制之前确认写入。R6g跳过这一步,直接从主节点写入S3。复本异步地从耐久的S3存储中获取数据。这将索引速度提高最多30%,同时还能利用S3著名的11 9持久性。

令人惊讶的是,R6g甚至可以直接从S3自动恢复并重建失败的索引。通过消除复制开销,客户可以享受更好的性价比。R6g非常适合用于日志分析工作负载——数据直接落地到成本效益高的S3存储中。

集群可以最小化为仅在R6g实例上的主要分片,以降低成本。接下来,演讲者展示了备受期待的零ETL S3集成。客户一直在要求从OpenSearch直接访问数据湖,而无需将所有内容都摄入进去。

这种功能允许透明地查询和分析位于Amazon S3存储桶中的数据,而无需执行任何ETL操作。该架构利用Amazon CloudWatch Glue数据目录作为S3中数据的索引。在Glue中的表会出现在OpenSearch内的数据源中。为了加速查询,用户可以在这些表上创建跳跃、物化或覆盖索引:

  • 跳跃索引能提升即席直接查询的速度。
  • 物化视图优化可视化和仪表板聚合。
  • 覆盖索引能将热数据快速摄入到OpenSearch中以实现更快的访问。

现场演示展示了如何通过SQL在OpenSearch中查询S3数据源,并通过跳跃索引来提高查询速度。一个仪表板直接从S3存储直接可视化VPC流量日志。这样能在不进行额外ETL的情况下解锁PB级数据以进行分析。

最后,演讲者总结了一些关于如何在优化成本的同时扩展Amazon OpenSearch服务功能以支持AI应用的策略。Vector Engine提供一个易于管理的向量数据库,以在规模上支持语义搜索。使用R6g实例可以将日志工作负载的成本降低30%。与Amazon S3的集成可以消除数据湖分析的数据摄取障碍。

总的来说,这些功能让Amazon OpenSearch服务对寻求创新新兴技术的组织来说更具多功能性和成本效益。感谢观众的参与,并鼓励他们提供反馈。

下面是一些演讲现场的精彩瞬间:

一位领导者针对观众与生成性人工智能的需求以及对于成本优化的关注进行了一次民意调查。

该领导者着重强调了加快选项的优势,例如跳过索引、物化视图和覆盖索引,以便针对不同场景的OpenSearch服务分析需求。

演讲者正在进行实时演示,展示如何设置OpenSearch与亚马逊云科技Lake Formation之间的连接,并强调所提供的详细文档有助于解决所需的IAM角色问题。

领导者展示了如何在Amazon Redshift中设置跳过索引,以帮助工程师更快地访问数据。

领导者还展示了如何使用OpenSearch服务在初始查询预热实例后进行快速的后续查询。

安迪·贾西自豪地宣布了一系列新的OpenSearch功能,包括无服务器向量数据库引擎和S3集成,以提高客户的性价比、性能和可靠性。

总结

在2022年re:Invent上,亚马逊云科技宣布了对Amazon OpenSearch服务的重大升级,使得客户能够轻松构建高级的AI驱动搜索体验,同时优化成本。首先,他们引入了一种全新的向量数据库引擎,可以高效地存储、管理和搜索向量嵌入,从而实现基于上下文的搜索和对话式体验。这种引擎具有很高的可扩展性,支持实时添加和删除向量,并与Amazon SageMaker和Amazon Kendra紧密集成。其次,亚马逊云科技为OpenSearch服务集群推出了新的R6g实例系列,相较于现有实例,其价格性能提高了30%,这得益于解耦合索引和复制等创新技术。R6g实例还将数据直接写入S3以实现持久性和自动恢复,使其非常适合用于日志分析工作负载。最后,OpenSearch服务现已与Amazon S3实现了零ETL集成,使得可以直接在OpenSearch服务中查询存储在S3桶中的数据,无需复杂的摄入管道。通过使用跳过索引、物化视图或覆盖索引等方法,可以提高性能。这些功能共同帮助OpenSearch服务客户在其S3数据湖上构建复杂的AI搜索应用程序,同时通过无服务器架构和新的高性能实例类型优化成本。亚马逊云科技持续创新,为客户提供最佳的搜索工作负载价格性能。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134837949

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李白的朋友高适

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值