利用生成式 AI 处理数据
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Amazon Bedrock, Generative Ai Applications, Custom Data Sets, Existing Data Architecture, Responsible Ai Auditing, Enterprise Data Governance]
导读
如何利用生成式 AI 将数据湖等现有数据架构转化为业务优势?在本讲座中,我们将探讨全球数据组织的领导者最关心的问题,即如何才能最有效地将专有数据集用于独特的差异化生成式 AI 解决方案。从拥有生成式 AI 生产应用程序的亚马逊云科技客户了解如何通过相似检索增强生成 (RAG) 等技术将数据纳入预训练基础模型和自定义。参加本讲座,了解使用生成式 AI 应用程序的三个关键数据考虑因素,以及亚马逊云科技如何利用向下兼容工作法,从客户出发帮助解决这些挑战。
演讲精华
以下是小编为您整理的本次演讲的精华。
在当代商业领域,数据占据至高无上的地位,推动着数字化转型,并塑造着云时代企业的未来。这一关键真理是Milon Thompson Bukovec在Amazon Web Services re:Invent 2024上发表演讲的基石,他在演讲中深入探讨了数据与生成式人工智能之间的错综复杂关系。
生成式人工智能是一种革命性技术,能够根据基于底层数据模型学习到的模式,创建新的内容,如图像、文本、音频或视频,它有可能彻底改变企业的运营方式。然而,要充分发挥其潜力,组织必须了解自身数据在定制和优化生成式人工智能应用程序和系统方面的关键作用。
Milon概述了三项关键的数据举措,这些举措跨越行业和地理位置,为数据从业者在生成式人工智能领域提供了指导方针。首先,利用定制数据来区分人工智能系统。其次,调整现有数据架构,使其能够无缝集成生成式人工智能。第三,成为生成式人工智能应用程序的最佳审计员,确保透明度、合规性和负责任的人工智能实践。
演讲阐明了数据增长惊人,这种增长是由消费者活动、传感器、商业分析以及无数其他驱动因素推动的。根据IDC的预测,未来五年内,年度数据生成量将飙升22%,达到惊人的229,000艾字节,其中90%是非结构化数据,包括视频、音频和文本文件。
这种数据的指数级增长为生成式人工智能提供了动力。生成式人工智能的基础模型是在大规模数据集(如Common Crawl这个开放的网页数据存储库,容量达数百万亿字节)上进行训练的。另一方面,企业则使用较小的私有数据集来进一步定制和完善基础模型的响应,从而创建一个中间数据集。这些定制模型反过来又推动了更多生成式人工智能应用程序的开发,而这些应用程序通过客户交互又产生了更多数据,从而持续推动这一飞轮的动力。
Milon概述了三种主要技术,用于定制基础模型以满足组织的特定需求。第一种是检索增强生成(RAG),它涉及添加来自公司数据的上下文,以补充提示并提高响应的相关性和准确性。第二种技术是微调,即在公司的标注数据示例上训练模型,使其专门用于特定任务或领域。第三种方法是继续预训练,即使用更大的非结构化和未标注的企业数据继续训练模型,从基础模型提供商停止的地方继续训练。
许多客户采用多种技术和基础模型,创建了一个模型集合,共同驱动其人工智能系统,这凸显了充分利用生成式人工智能所需的复杂性和定制化程度。
为了说明这些原则在现实世界中的应用,Milon邀请了Adobe Firefly和Sensei的副总裁Alexandra Costin,分享Adobe拥抱生成式人工智能的历程。作为一家服务客户数十年的公司,Adobe认识到人工智能时代的到来是一个关键时刻,促使他们提前投资,将产品线转型为人工智能驱动的产品。
通过与各个领域的客户广泛接触,包括消费者、小企业、学生、创意专业人士和企业,Adobe获得了宝贵的见解。客户希望拥有控制权,能够准确地实现自己的创意愿景并讲述自己的故事。他们还希望生成式人工智能能力能够无缝集成到他们已经在使用的产品中,如Photoshop。定制化也是一项关键需求,允许用户创建符合品牌形象的内容,并大规模生成内容变体。也许最重要的是,客户要求生成的内容可用于商业用途,这凸显了在训练模型时负责任的数据实践的重要性。
在这些见解的指导下,Adobe着手开发图像生成、矢量生成和设计生成模型,最终在2023年推出了几项开创性的功能。
这些努力取得了巨大成功。集成到Photoshop中的Firefly模型成为该软件历史上使用率最高的功能,使用率是任何其他新功能的10倍。此外,全年共生成了超过40亿张Firefly图像,这证明了Adobe生成式人工智能解决方案的广泛采用和影响力。
Adobe数据策略的核心是Adobe Stock市场,这是一个庞大的存储库,收录了数亿经过策划和审核的图像、插图和视频。这个庞大的收藏是训练Adobe模型的基础数据集。然而,Adobe不仅仅是简单地聚合数据,还通过嵌入和增强来丰富这些数据,提高其质量并增加训练过程的效率。
数据准备过程是一个多方面的工作。首先,Adobe过滤数据,确保训练的模型无法生成商标、知识产权或可识别的角色,从而避免潜在的法律问题。接下来,Adobe采用大型语言模型(LLM)和分类器创建预计算嵌入,提高了训练过程的质量和速度。这些预计算嵌入不仅提高了模型的性能,而且加快了训练过程,因为在每次训练迭代中无需重新计算嵌入。
为了确保高效的数据加载并最小化瓶颈,Adobe将数据存储在Amazon S3、Lustre和FSx中,持续监控数据血统和可追溯性。此外,Adobe通过从其应用程序收集喜欢、不喜欢和下载等人类反馈,采用强化学习与人类反馈(RLHF),利用这些反馈教会模型生成符合用户偏好的资产。
认识到数据在生成式人工智能生态系统中的关键作用,Adobe成立了一个专门的团队,负责将数据集视为一种产品。该团队专注于准备用于训练的数据、以多种方式压缩数据、计算嵌入,并与整个组织的研究人员共享准备好的数据。
为了扩大运营规模并满足生成式人工智能的巨大计算需求,Adobe利用亚马逊云科技的可扩展解决方案。在处理数百万亿字节的原始数据和嵌入时,Adobe依赖于亚马逊云科技服务,如S3 Express One Zone,将数据放置在更近、更快的训练节点附近,从而减少延迟和成本。Adobe将数据压缩成分片,并使用开源软件将其流式传输到训练机器,确保GPU在训练过程中保持全速运转。
虽然Adobe训练自己的基础模型,但也认识到定制和控制的需求,因此采用了多种技术,包括微调、RAG上下文和继续预训练。这种多管齐下的方法使Adobe能够创建一个符合其特定需求的模型集合。
Adobe战略的核心原则之一是保持领先于法规,并践行负责任的人工智能实践。该公司大力投资于内容真实性,使文档的人工智能生成与否保持透明。Adobe还与政府合作,就改进和规范模型训练提供建议,确保所有利益相关方都能在负责任地发展生成式人工智能方面发挥作用。
认识到异构计算环境带来的挑战,客户可能需要整合自己的数据以创建更好的产品,Adobe对亚马逊云科技的Clean Room公告表示兴奋,这可能有助于实现安全的数据协作,并促进更加定制化解决方案的创建。
Adobe还强调数据透明度、治理以及应对新兴威胁(如数据投毒,即艺术家试图通过新颖的方式标记数据来保护自己的数据)的重要性。这些措施对于确保Adobe模型的高质量和完整性至关重要,体现了该公司对负责任人工智能实践的承诺。
为进一步说明生成式人工智能的现实影响以及利用现有数据架构的重要性,Milon邀请了Pinterest数据工程副总裁Dave Burgess分享见解。
Pinterest是一个视觉灵感平台,拥有4.82亿月活跃用户,每周有15亿张图片(pins)被保存。Pinterest在亚马逊云科技云上培养了敏捷的工程文化。这种文化使Pinterest能够快速开发和部署生产规模的软件、运行数千个实验、在一天内训练和部署机器学习模型,以及每秒执行数亿次机器学习推理。
这种数据驱动的方法使Pinterest在其数据湖中存储了一个艾字节的数据,这是Amazon S3上最大的数据湖之一。Pinterest的数据架构融合了亚马逊云科技技术和开源软件,为工程师、数据科学家、产品经理和高管等不同的数据消费者提供服务。
为了促进数据分析和探索,Pinterest 用户利用该公司开源的 Query Book 和 Superset 分析用户界面,通过在 Amazon EKS 上运行的 Presto 和 Spark 开源大数据引擎执行查询。Pinterest 根据模式设计、质量和文档对其数据进行了分层,所有元数据(如模式、字段、指标和定义)都存储在开源的 Data Hub 目录中。Pinterest 最高层级 1 数据集的目标是使公司 80% 的查询能够高效执行。
尽管拥有这些强大的功能和基础设施,但 Pinterest 认识到通过利用生成式人工智能可以进一步提高分析生产力。该公司确定了分析工作流程中的几个痛点,包括确定要使用哪些数据、理解字段和指标定义、评估数据质量和可信度以及编写 SQL 查询。
为了解决这些挑战,Pinterest 转向了检索增强生成(RAG),从文本问题自动生成 SQL 查询。当提供正确的表时,这种方法被证明非常准确,准确率达到 97%。然而,为给定查询识别适当的表仍然是一个障碍,需要根据表的模式生成文本描述。
Pinterest 采用了大型语言模型来生成这些文本描述,从而实现了准确的表选择,用于 SQL 查询生成。这种生成式人工智能解决方案的影响是深远的,使分析师、数据科学家、产品经理和工程师的生产力提高了 40%。这一收益主要来自于加速了数据发现过程和缩短了查询创建时间,这得益于自动识别正确的表和生成 SQL 查询。
虽然 Pinterest 利用了现成的大型语言模型进行这一用例,但该公司发现大部分差异化来自于输入这些模型的提示和数据。这突出了将生成式人工智能解决方案定制以符合组织特定数据和需求的重要性。
Milon 赞扬了 Pinterest 的成就,他们能够在现有的基于 亚马逊云科技 的数据架构基础上迅速采用生成式人工智能。这种无缝集成展示了公司如何在以 亚马逊云科技 服务为基础的情况下快速部署人工智能系统,这些服务不断发展以满足客户需求。
Milon 随后深入探讨了生成式人工智能从业者的三个关键数据计划,并提供了见解和示例来说明它们的重要性。
第一个计划是使用定制数据来区分人工智能系统,这是将生成式人工智能解决方案定制为组织独特需求的关键步骤。Milon 强调了从公司语料库中选择和准备适当的数据集用于 RAG、微调或持续预训练的重要性。这个过程涉及使用大型语言模型和 SageMaker 等工具进行数据分类、标注和准备,确保数据具有最高质量和相关性。
一旦准备好高质量的数据集,Amazon Q 和 Bedrock Knowledge Bases(现已普遍可用)等 亚马逊云科技 服务就可以简化将企业数据源安全连接的过程。例如,Amazon Q 提供了 43 个原生数据源连接器,为组织提供了一个无缝入口,以便在生成式人工智能应用程序中利用其数据。Bedrock Knowledge Bases 则提供了一个单一 API,执行整个 RAG 工作流程,从获取必要的数据来增强提示,到将提示发送到大型语言模型,再到返回响应。该 API 支持各种向量引擎,包括 Amazon OpenSearch Service、Amazon Aurora(即将推出)、Pinecone、Redis Enterprise Cloud 和 MongoDB(即将推出),为客户提供选择和灵活性。
对于数据科学家和分析师,SageMaker Canvas 提供了一个低代码环境,具有点击式工具来处理支持生成式人工智能应用程序的基础模型所使用的数据集。Canvas 使用户能够上传数据集、选择大型语言模型,并自动开始构建定制模型,无需广泛的机器学习专业知识。
第二个数据计划是利用和扩展现有的数据架构,解决了一个关键的客户需求:能够将生成式人工智能应用程序无缝集成到现有的数据生态系统中。客户不希望为这种新型应用程序创建新的数据架构;相反,他们希望利用现有的系统来存储和使用数据,同时遵守现有的企业数据访问、治理和合规规则。
Milon 讨论了插入现有数据源(如 S3 数据湖)的重要性,以及利用熟悉的数据构建块(如 Amazon OpenSearch、Amazon RDS、Aurora PostgreSQL、Amazon Kendra 和新推出的 Amazon Neptune 和 MemoryDB 中的向量功能)。通过扩展现有架构,客户可以利用他们首选的技术和现有技能,最大限度地减少学习曲线并加速采用。
此外,使用 亚马逊云科技 流技术(如 MSK、Apache Flink 和 Amazon Kinesis)构建的现有数据管道可以扩展,以实时捕获数据变化并更新向量存储和微调数据集。亚马逊云科技 不断增强其服务的新功能,专门用于生成式人工智能,例如在 Amazon Data Zone 中使用生成式人工智能进行自动描述,以及在 Amazon Glue 中提供数据质量洞见,缩小现有架构与最新人工智能进展之间的差距。
第三个数据计划是成为自己最好的审计员,这是负责任人工智能实践和为未来法规和合规性要求做准备的关键方面。组织必须全面了解他们用于训练、定制、微调和 RAG 的数据集,以及他们的模型是如何做出决策的。
Milon 强调了存储、保护和管理生成式人工智能系统创建和使用的新中间数据集(如评估数据集、嵌入、提示工程数据集和暂存数据集)的必要性。这些数据集应该使用与现有数据架构相同的访问和安全模型进行存储,并详细记录它们在生成式人工智能工作流程中的使用情况。
生成式人工智能中数据的可解释性至关重要,确保提示响应反映了用户对底层数据的权限。Amazon Q 和 code whisper 等 亚马逊云科技 人工智能服务从一开始就融入了这一概念,而 Bedrock 则为审计模型使用和数据集提供了广泛的 CloudTrail 日志记录。CloudWatch 的敏感数据保护和 Bedrock 的模型决策可解释性日志记录等 亚马逊云科技 服务进一步增强了审计和负责任人工智能实践。
亚马逊云科技 还提供了人工智能服务卡,以透明的方式说明预期用例和最佳实践,并为 Amazon Titan 模型和 code whisper 的输出提供知识产权赔偿保障,体现了他们对负责任人工智能的承诺。
认识到大规模自动化负责任人工智能实践的重要性,亚马逊云科技 正在投资创新解决方案。Bedrock 的 Guardrails 功能(预览版)允许指定要避免的主题,并自动过滤所有基础模型中的受限查询和响应。SageMaker Clarify 使客户能够根据负责任人工智能指标(如准确性、稳健性和有害性)评估和选择基础模型,从而做出明智的选择。
在整个演示过程中,Milon 一再重申 亚马逊云科技 致力于支持客户在生成式人工智能领域的发展,不断学习和探索新的可能性。公司的领导原则”学习并保持好奇心”体现了这一理念,强调永无止境的知识追求和对新领域的探索。
总之,来自 Amazon Web Services re:Invent 2024 的视频全面概述了数据在生成式人工智能中的关键作用、从业者的三个关键数据计划、推动生成式人工智能飞轮发展的数据增长、定制基础模型的技术,以及来自 Adobe 和 Pinterest 等行业领导者的真实案例。它还强调了 亚马逊云科技 持续创新,开发服务和功能,帮助客户利用其数据进行生成式人工智能,同时确保负责任的人工智能实践和可审计性。在探索生成式人工智能领域时,亚马逊云科技 是值得信赖的合作伙伴,致力于赋予组织释放其数据的全部潜力,并塑造其行业的未来。
下面是一些演讲现场的精彩瞬间:
现在,每一家现代企业都是一家数据企业,我们多年来一直在与客户讨论如何利用数据在云端推动数字化转型。
现在,我们正在就如何将您自己的数据与生成式人工智能相结合进行同样的讨论。
借助亚马逊云科技流媒体技术(如MSK、托管Apache Flink和Amazon Kinesis)实现实时数据准备,您可以扩展现有数据管道,并将其与生成式AI无缝集成。
Pinterest是一个视觉灵感平台,在亚马逊云科技云上构建了敏捷的工程文化,每周有15亿张图片被保存,并能在一天内训练和部署机器学习模型,每秒执行数亿次机器学习推理。
在快速发展的生成式人工智能领域,每个组织都需要成为自己最好的审计员,了解训练数据集、模型决策过程,为即将到来的监管做好准备。
在生成式人工智能时代,企业需要将中间数据集纳入数据治理范围,确保这些数据集的存储、访问和使用都符合现有的数据架构和安全模型。
亚马逊云科技为生成式人工智能提供了全面的审计和合规性支持,确保透明度和可追溯性。
总结
在这场引人入胜的演讲中,Milon Thompson Bukovec作为亚马逊云科技技术副总裁,深入探讨了数据在利用生成式人工智能(Generative AI)的变革力量中所扮演的关键角色。他强调了三个跨行业和地理位置的关键数据举措:利用定制数据来区分人工智能系统,将生成式人工智能整合到现有数据架构中,并成为负责任的人工智能部署的自己的审计员。
Bukovec强调了通过检索增强生成(RAG)、微调和持续预训练等技术,为定制基础模型策划高质量、相关数据集的重要性。他强调了亚马逊云科技服务,如Amazon Q、Bedrock知识库和SageMaker Canvas,这些服务简化了企业数据与生成式人工智能模型的集成。
此外,他强调了利用现有数据架构和管道的必要性,展示了亚马逊云科技服务(如Amazon S3、OpenSearch和Kendra)如何无缝扩展以支持向量数据和嵌入。Bukovec还强调了审计和治理的重要性,通过CloudTrail、DataZone和Bedrock的模型调用日志记录等服务,倡导透明度和负责任的人工智能实践。
Bukovec的演讲穿插了来自Adobe的Alexandra Costin和Pinterest的Dave Burgess等行业领导者的见解,描绘了亚马逊云科技如何让组织能够利用生成式人工智能的变革潜力,同时保持数据完整性、合规性和负责任的人工智能原则。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。