re:Invent 2023 | 亚马逊云科技上分析和生成式 AI 的最佳实践

关键字: [Amazon Web Services re:Invent 2023, Amazon SageMaker, Data Analytics, Generative Ai, 亚马逊云科技, Data Pipeline, Best Practices]

本文字数: 1500, 阅读完需: 8 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV19Q4y1G7Gp

导读

现在是处理云端数据的最佳时机。快速采用新的数据架构模式和创造性突破技术(例如生成式 AI)正在将数据和分析快速移动到云。组织希望在最大限度地提高性能的同时实现成本效益,并正在寻找关于数据策略和数据管道优化的指导,以为其分析和生成式 AI 应用程序建立强大的数据基础。在本论坛中,聆听核心亚马逊云科技分析服务的最佳实践,以快速、经济地从所有数据中获得答案。

演讲精华

以下是小编为您整理的本次演讲的精华,共1200字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

最佳实践:在亚马逊云科技上使用分析和生成性AI"这场会议由两位演讲者Ania(作为亚马逊云科技的数据分析技术领导者,拥有超过20年的经验)和Hashida Patel(亚马逊云科技的主要数据分析专家)共同主持。

在这场会议上,Ania首先回顾了过去20年中数据平台的发展历程。她回忆起,在早期,大数据的特点是三V——体积、速度和多样性。然而现在,我们所处理的数据已经增长到了十个V。同样,在2010年,Ania用三个月的时间成功地搭建了她第一个20节点的Hadoop集群。但现在,通过在亚马逊云科技中点击几下,可以在分钟内创建整个Hadoop集群。

数据管道架构也发生了重大变革,从简单的ETL捆绑包演变为复杂系统,如数据仓库、数据湖、客户360、库存管理等。部署模式也从自管理转变为亚马逊云科技的全托管服务。Ania强调,尽管随着数据的增长,变化和演变是不可避免的,但遵循一些基本的设计原则和最佳实践有助于管理成本和性能影响。

Ania展示了一张思维导图,总结了亚马逊云科技从大量客户互动中提炼出的设计最佳实践的核心原则:简化ETL:像亚马逊云科技Glue DataBrew和亚马逊Kinesis数据流这样的服务通过实现无代码数据移动和集成来简化ETL,抽象掉许多复杂性。例如,一位客户使用亚马逊云科技Glue在一个ETL管道上只用了两周时间,而之前需要6个月的时间。

实现数据共享而不复制:利用集中访问控制、联邦查询和服务,如亚马逊云科技Lake Formation和Data Exchange,允许在原地共享数据而非通过副本,从而简化数据共享。一位客户使用Lake Formation快速跨账户共享数据并降低存储成本。

提高可靠性:实施数据血统、合规政策、数据保留和数据质量措施可以提高管道的可靠性。亚马逊云科技Glue的数据质量功能有助于在输入时验证数据。一位客户使用了亚马逊云科技Glue的数据质量规则来对流数据进行概况并过滤掉异常值。

在这篇文章中,我们将探讨人工智能(AI)在医疗领域的应用及其对未来的影响。近年来,随着技术的飞速发展,人工智能已经在各个领域取得了显著的成果。在医疗领域,AI技术的应用已经取得了突破性的进展,为患者提供了更加精确和高效的诊断和治疗服务。

首先,AI技术在医学影像诊断方面取得了显著的成果。通过深度学习和大数据分析,AI系统可以快速准确地识别出病变区域,从而帮助医生提高诊断的准确性。例如,肺癌是一种常见的恶性肿瘤,早期诊断对于提高患者生存率至关重要。然而,传统的肺癌筛查方法存在一定的局限性,而AI技术可以通过分析CT扫描图像,自动检测出肺结节,从而提高肺癌的早期诊断率。

此外,AI技术还在药物研发领域发挥着重要作用。传统的药物研发过程既耗时又昂贵,而AI技术可以通过分析大量的化学和生物数据,快速筛选出具有潜在治疗作用的化合物。这将大大缩短药物研发周期,降低研发成本,为患者带来更多的治疗选择。

在未来,随着AI技术的不断发展,我们可以预见到它在医疗领域的应用将更加广泛。除了现有的医学影像诊断和药物研发之外,AI还将在疾病预测、个性化治疗和康复治疗等方面发挥重要作用。例如,通过对患者的基因、生活习惯和环境因素等多方面信息的分析,AI可以预测患者未来可能发生的疾病风险,从而实现个性化的预防和治疗。

总之,人工智能在医疗领域的应用已经取得了显著的成果,并将继续推动医疗行业的发展。随着技术的不断进步,我们有理由相信,AI将为人类带来更加健康的生活和质量更高的医疗服务。

  1. 从特定领域的数据开始,从头训练自己的模型。这种方法具有高度个性化特性,但相对复杂。一家金融服务公司利用行业文本训练了一个定制的语言模型(LLM),以生成相关内容。

  2. 对现有的模型在较小的标注数据集上进行微调。这种方法更易于定制。一家零售商对现有模型进行了微调,以生成产品描述。

  3. 使用隐性训练进行上下文学习。这种方法通过提供上下文数据作为提示来引导模型。一所大学使用隐性训练建立了对话式聊天机器人。她强调,隐性训练允许在不更改其参数的情况下指导模型行为。常见的技术包括语义增强和提示工程。

接下来,Hashida通过一个假设的对话式聊天机器人展示了如何使用隐性训练。该聊天机器人接收用户的提示,从数据库和向量数据库中提取上下文数据的关键字,用这些关键字扩充提示,然后将其提交给语言模型(LLM)以生成一致的回应。

她解释道,向量数据库通过将非结构化数据转换为捕捉意义和关系的向量表示来帮助进行语义搜索。这种上下文数据提高了语言模型回应的相关性。

接下来,Hashida概述了驱动这个架构背后的参考体系结构:

  • 用户向聊天机器人应用程序提交问题提示
  • 应用程序在DynamoDB表中检查对话状态
  • 使用Glue目录元数据将提示模板化为Redshift查询
  • Lambda查询Redshift,将响应作为上下文返回
  • 将关键字转换为向量嵌入以查询OpenSearch向量数据库
  • 将所有上下文组合在一起并提交给LLM以生成回应
  • 在DynamoDB中更新对话状态
  • 将LLM回应返回给用户

然后,她深入探讨了支持这个架构背后的数据管道和分析服务:

  • 使用亚马逊云科技的Amazon MSK、Kinesis数据流和Amazon Managed Flink对数据进行流处理和转换
  • 将流数据存储在S3数据湖中
  • 使用亚马逊云科技的Glue作业执行批量ETL
  • 使用EMR处理数据并将其用于分析
  • OpenSearch将数据索引并对其进行向量化以进行语义搜索
  • Redshift提供了用于分析已处理数据的数据仓库
  • Lake Formation提供了安全和治理功能

最后,Hashida把话筒交给了TAS,总结了一些关键要点:

  • 向量数据库正成为主流,为生成式人工智能提供语义背景。

在非结构化数据领域,同样严格的数据处理要求适用于AI的使用。为了应对广泛的用户访问,需要更加关注隐私、安全和合规性问题。高质量的统一数据和集中化管理对生成性AI至关重要。总的来说,这次会议主要介绍了如何利用亚马逊云科技服务构建分析管道,从而推动生成性AI应用的优化。演讲者们强调了数据质量、安全性、治理和语义上下文在支持生成性AI方面的关键作用。他们还通过展示实际客户案例来提供了诸多建议。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技在re:Invent上展示了一系列关于数据分析和生成性AI用例的屏幕截图,这些用例都是通过亚马逊云科技的先进架构实现的。

亚马逊云科技提供了向量数据库,将数据存储为向量嵌入,从而为语言模型应用提供高效的相似性搜索功能。

领导者们强调了Amazon Redshift如何在确保安全性的同时扩展到不同的数据源,如S3,集成流式摄入,并支持开放格式的批量和实时数据。

宣布与Amazon Aurora的零ETL集成允许将交易数据复制到Redshift,而无需使用数据管道。

亚马逊云科技Lake Formation通过元数据共享而非数据移动,提供了跨账户的细粒度数据访问控制。

领导者们还展示了链接到亚马逊云科技专家更新技术博客的QR码。

总结

ANT329: Best Practices for Analytics and Generative AI on 亚马逊云科技探讨了在亚马逊云科技上构建数据分析管道以支持生成性AI应用的最佳实践。该课程从数据架构随时间演变以变得更加可扩展、可靠和简单的概述开始。一些关键最佳实践被强调,如就地共享数据以避免重复,实施数据血统和保留策略,以及将存储与计算分离。

随后,课程通过一个实时学习的生成性AI聊天机器人的参考架构进行了详细说明。在提交给大型语言模型之前,聊天机器人会从数据仓库和向量数据库中获取额外的上下文来扩充用户提示。在后台,流数据摄取、使用Glue和EMR处理数据以及将数据存储在S3、Redshift和OpenSearch中使得实时工作流程成为可能。

为流数据、数据处理、存储和机器学习组件提供了最佳实践。这些包括调整资源大小、监控、使用托管服务以及优化性能。例如,通过选择优化内存的实例类型并使用预热API,可以提高OpenSearch的向量搜索性能。

课程强调了高质量、良好治理的数据对于生成性AI至关重要。使用Lake Formation进行集中元数据管理以及实施隐私和合规控制等策略是至关重要的。总之,通过遵循分析和ML的最佳实践,您可以构建可扩展且成本优化的管道,以驱动有影响力的生成性AI应用。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134795546

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

  • 18
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值