AIM314 | 使用 Amazon SageMaker 低代码工具加快机器学习进程
关键字: [Amazon Web Services re:Invent 2023, Amazon SageMaker, Low Code Machine Learning, Amazon Sagemaker, Data Wrangler, Autopilot, Jumpstart]
本文字数: 2800, 阅读完需: 14 分钟
视频
导读
机器学习(ML)之旅需要不断的实验和快捷的原型开发才能成功。为了创建高度精确的模型,数据科学家们必须首先实验特征工程,模型选择和优化技术。这些程序传统上既耗时又昂贵。在本次分享中,学习低代码工具(包括 Amazon SageMaker Data Wrangler、Amazon SageMaker Autopilot 和 Amazon SageMaker JumpStart)如何更容易更快地进行试验,并更快速和有效地将高度精确模型投入生产。
演讲精华
以下是小编为您整理的本次演讲的精华,共2500字,阅读时间大约是12分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
未来的机器学习将走向低代码化。
当克拉拉·奥布莱恩和瓦迪姆·奥梅尔琴科走上舞台时,拥挤的观众席顿时变得安静,空气中弥漫着兴奋的氛围。他们热情地欢迎大约500名与会者参加即将举行的re:Invent会议——“借助Amazon SageMaker的低代码工具加速您的机器学习之旅”。
克拉拉环顾了整个房间,好奇地打量着与会者的构成。她大声问道:“如果你们觉得自己对机器学习还不太了解或者仍然处于初学者的阶段,请举手。”大约200只手在人群中举了起来。克拉拉点头表示理解并继续说:“现在请保持你们的手举着,如果你们觉得自己在机器学习方面已经达到了中级或高级水平。”一半以上的人,大约300人,依然保持着高举的手。
“太好了,今天我们这里有一个相当不错的组合,大约40%的初学者和60%的中级/高级爱好者,”克拉拉微笑着说。这种经验水平的多样性是非常理想的,因为他们要讨论的工具旨在帮助新的和有经验的ML从业者加速他们的工作流。
克拉拉随即开始了他们为期75分钟的会议议程。首先,他们将阐述低代码机器学习的概念及其优势,这一部分大约需要15分钟。接下来,他们将概述SageMaker的一整套低代码工具:Data Wrangler、AutoPilot和JumpStart,这部分大约需要25分钟。然后,瓦迪姆将在接下来的30分钟内展示每个工具的实际应用。在会议结束时,克拉拉希望与会者能够深入了解如何利用低代码ML加速他们的工作流程,熟悉可以快速开始使用的工具,并从看到低代码ML实际应用的真实案例中获得灵感。
为了设定基调,克拉拉概括了典型的机器学习工作流程中的四个关键步骤:数据准备、模型构建、模型部署和模型维护。她指出了在每个阶段可能出现的常见挑战,从需要深入的数据科学专业知识到实验和迭代的资源密集型性质。
“但我们经常听到的第一个瓶颈是客户在他们的组织中缺乏ML技能,”克拉拉强调说。“尽管ML项目的需求每年以约30-50%的速度增长,但他们没有足够的数据科学家和ML工程师来应对,通常他们的团队有5-15名从业者。”
超过300个预构建的转换,包括从一对一编码到使用PCA进行维度降低的转换
- 一个自定义代码编辑器,用于创建复杂的自定义转换
- ML驱动的分析,如特征重要性和偏见检测
- 与AutoPilot集成,可以从准备好的数据启动实验
- 编排代码导出, 以将数据流集成到管道中
为了展示数据整理员的实际应用,瓦迪姆上台进行了现场演示。他展示了如何可视化地构建一系列数据转换,包括连接、一对一编码和数据分析。这个交互式的用户界面使得清理、探索和转换数据变得非常简单。
瓦迪姆还展示了数据整理员如何生成洞察报告,以便提前了解数据质量问题。这些报告提供了关于缺失值、数据分布、特征重要性等方面的统计数据。一旦数据准备好,他就会展示如何在点击几次后轻松地将工作流程导出为笔记本或Python代码。这使得将数据整理员的数据流整合到更大的管道中变得轻而易举。
Vadim通过Data Wrangler用户界面直接启动了AutoPilot实验,保留了原始数据中的公司名称、人名、产品名、技术术语和Amazon服务。这表明了SageMaker的低代码工具之间的紧密整合,简化了从数据准备到模型构建的整个流程。
AutoPilot:自动建模与优化
在整理好干净、转换后的数据后,我们可以来谈谈AutoPilot。正如Clara所解释的那样,AutoPilot是SageMaker的一键式自动化模型构建、训练、调整及部署工具。
她表示:“使用AutoPilot,你只需要将数据集交给它,指定目标列,然后启动一个实验。”AutoPilot会处理预处理、算法选择、超参数调整和并行运行多个试验以加速实验进程。相较于通常需要数小时的小于100MB数据集,它只需几分钟就能完成。最后,它会提供一个基于性能和延迟的最佳试验排名的模型列表。
Clara强调了AutoPilot的两个主要优势:
- 它能并行运行多个试验而非顺序运行,因此能将实验时间缩短至原来的三分之一至一半。
- 它可以定制——你可以选择特征、自带测试集、选择训练算法等。
她还强调,AutoPilot实验是透明的——你可以查看底层数据、代码和模型构件。这种可见性对于理解和信任AutoPilot所提供的内容至关重要。
在Data Wrangler和AutoPilot之间,SageMaker提供了一种从数据准备一直到已部署模型的流水化低代码体验,同时将典型开发时间减少50%或更多。
快速启动:发掘预训练模型
Clara提到的另一个低代码工具是SageMayer快速启动。这个工具提供了一个包含超过350个预训练模型和算法的目录,涵盖了计算机视觉、自然语言处理和表格数据等领域,帮助开发者迅速开始运行。
据克拉拉介绍,当你不需要从头开始训练模型时,预训练模型成为了一个低代码方案的绝佳选择。JumpStart包包含了公开的模型,确保它们能够与SageMaker无缝协作。使用JumpStart有两大优势:
- 处理导入和维护公共模型的工作,为数据科学家节省了大量宝贵的时间。
- 提供安全的托管模型,而不是让开发人员自己去下载和使用自己的版本。
除了预训练模型之外,JumpStart还提供了70多种加速部署的完整解决方案。这些CloudFormation模板可以实现一键设置针对特定使用情况的定制亚马逊云科技组件,从而将部署时间从数周缩短到仅仅只需要几天。
据克拉拉透露,JumpStart最近还可以访问基础模型。这些大型、昂贵且需要训练的模型(如Stable Diffusion)在许多领域都具有强大的功能。通过JumpStart,开发人员只需点击几下,以培训自身成本的一半就可以利用领先的Foundation Models通过SageMaker。
瓦迪姆快速展示了一个JumpStart的使用示例,他浏览了一些模型并部署了一个用于推断的模型,整个过程都使用了自动生成的SDK代码。他还展示了如何像Stable Diffusion这样的基础模型现在可以直接在SageMaker控制台中访问。
整合低代码到机器学习工作流程
最后,我们回顾了Data Wrangler和AutoPilot是如何被集成到端到端机器学习工作流程中的。使用Data Wrangler准备数据并将其转换直接提供给AutoPilot,提供了一个简洁的低代码体验。将Data Wrangler流用于培训和推断,确保了开发和生产环境之间的一致性。
总的来说,无论是对于机器学习新手还是经验丰富的专业人士,SageMaker的低代码工具都能帮助你更高效、更快捷地完成工作,降低开发时间50-70%。通过消除冗余代码、自动化实验以及提供预构建的模型和解决方案,低代码机器学习让你能够专注于更有价值的高价值任务,而无需花费时间在重复性的编码上。
AI21实验室致力于通过人工智能改变人们的阅读和写作方式。他们已经成功开发出拥有高达178亿参数的大型语言模型,这些模型为诸如word2word和word2read等消费者应用程序提供了强大支持。然而,Ori表示:“如果你想真正改变人们的阅读和写作方式,那么文本必须无处不在——每个应用程序都需要阅读和写作组件。”因此,他们创建了AI21 Studio,一个面向开发者的平台,通过简单的API提供其模型。
Ori强调了他们的大型语言模型的几个优势:
- 在行业标准硬件上高效运行
- 使用560GB的词汇量进行训练,以捕捉语言中的细微差别
- 不断发布特定任务的API,简化开发过程
- 经过安全性和稳健性设计和评估,在第三方基准测试中排名第一
他分享了各个行业中使用其模型的例子——从生成游戏角色和剧情到总结财务报告和法律文件。Ori强调,当基础模型对开发者变得容易获取时,可能性是无限的。
令人兴奋的是,Ori宣布他们的具有44层和8.5亿参数的侏罗纪-1模型现在可以在亚马逊的SageMaker JumpStart中使用。随后,他在JumpStart控制台中提供了一个实时演示,展示侏罗纪-1如何仅通过几个示例就能生成连贯的文本摘要。
Ori展示了使用笔记本生成AI辅助简历文本的端到端工作流程。在输入仅仅几项内容后,侏罗纪-1生成了专业且富有创意的简历简介。这展示了通过SageMaker JumpStart获得的基础模型的巨大潜力。
未来将是低代码的时代。Clara回到舞台上结束这个75分钟的会议。她总结说,低代码机器学习的目标是加速工作流程的同时保持灵活性。无论你是新手还是经验丰富的从业者,亚马逊的SageMaker低代码工具使你能够更高效地工作,减少开发时间50-70%。
在Data Wrangler进行数据准备,AutoPilot用于自动化建模,JumpStart用于预训练模型之间,SageMaker提供了一整套集成的低代码功能。与合作伙伴如AI21 Labs的令人兴奋的集成展示了SageMaker如何将最新的机器学习创新纳入其低代码工具包。
在今天的会议结束后,与会者们受到了启发,并开始尝试运用低代码机器学习技术。我们正共同努力,共同塑造机器学习的未来——也就是低代码的未来。当与会人员离开会议室时,他们已经着手探讨如何将这些工具应用于自己的机器学习之旅。无论对于新手还是经验丰富的数据科学家,低代码机器学习的潜力都是显而易见的——更高的生产效率、加速的工作流程以及更多时间专注于高价值任务。在亚马逊SageMaker的带领下,机器学习的前景显得十分光明。
下面是一些演讲现场的精彩瞬间:
领导者强调,在部署机器学习模型之后,监测和更新模型至关重要,以确保持续的准确性。
这些解决方案使用户能够定制和理解自动化,使其既适合初学者,也适合高级用户。
借助亚马逊云科技Data Wrangler中的可视化点击式UI,直观的数据探索、转换和准备变得轻而易举,从而有助于构建机器学习模型。
数据科学家通过实验和迭代来构建、调整并部署机器学习模型,而ML工程师则负责重新训练模型并将其准备生产部署。
领导者展示了如何在亚马逊云科技SageMaker上轻松部署AI模型。
演讲者邀请听众在会议结束后提出问题。
总结
该视频详细介绍了亚马逊SageMaker的一系列低代码机器学习工具,旨在简化机器学习流程。Data Wrangler通过可视化界面和自动化功能实现高效的数据处理。AutoPilot通过同时运行多个实验来寻找最佳性能模型,从而实现自动化模型创建。JumpStart提供预训练模型以及对常见应用场景的端到端解决方案。
这些工具有助于应对专业知识、实验时间以及资源瓶颈等关键的机器学习挑战。它们消除了编写模板代码和手动调整模型的需求。通过开放且可定制的用户界面,用户可以对自动化步骤进行监控。Data Wrangler和AutoPilot能够完美融合,允许用户在AutoML之前完成数据准备。总之,这些工具通过自动化重复任务,提升了新手和有经验机器学习从业者的工作效率。
视频中展示了Data Wrangler中的直观数据准备界面,AutoPilot中的自动模型训练过程,以及从JumpStart轻松部署预训练模型的能力。此外,还强调了生成代码的功能,以便将低代码工作流程整合到相关流程中。
演讲原文
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。