AIM320 | 使用托管 Jupyter 笔记本提高机器学习开发效率

AIM320 | 使用托管 Jupyter 笔记本提高机器学习开发效率

关键字: [Amazon Web Services re:Invent 2023, SageMaker Studio, Sagemaker Studio Notebooks, Collaboration Capabilities, Serverless Data Preparation, Automated Notebook Jobs, Decreasing Time To Insight]

本文字数: 2800, 阅读完需: 14 分钟

视频

导读

Amazon SageMaker 提供了两个选项,使用完全管理的 Jupyter 笔记本进行数据探索和构建机器学习模型。在本次分享中,您将了解如何快速入门使用 Amazon SageMaker Studio 笔记本提高机器学习开发的所有步骤的生产力。了解如何开始使用独立的 SageMaker 笔记本实例,这些实例提供了广泛的云计算资源选择,包括用于加速计算的 GPU 和最新版本的开源机器学习包。

演讲精华

以下是小编为您整理的本次演讲的精华,共2500字,阅读时间大约是12分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

在过去十年里,开源Jupiter笔记本的使用量急剧增加,如今在GitHub上的数量已超过1000万。仅在过去7年里,其使用量就增长了令人难以置信的50倍。这一增长充分展示了Jupiter笔记本在数据科学、机器学习以及众多其他行业和技术工作流程中的多样性和影响力。在最近的Kaggle调查中,70%以上的数据科学家、数据工程师和机器学习开发者承认他们的日常工作依赖于Jupiter和Jupiter Lab。

亚马逊云科技于2017年推出了SageMaker,这是一个完全托管的服务,支持云中的数据科学和机器学习。鉴于Jupiter笔记本的普及程度,SageMaker从一开始就提供了对运行托管的笔记本实例的一流支持。这使得像Vanguard这样的数据团队能够立即启动预装了最新开源库的Jupiter笔记本,从而在没有复杂设置的情况下开始在亚马逊云科技上构建ML模型。

2019年,亚马逊云科技迈出了一大步,推出了专为机器学习设计的集成开发环境SageMaker Studio。Studio为数据科学家和开发者提供了一个一键式工具,用于构建、训练、部署和监控模型,所有这些都由Jupiter笔记本和Jupiter实验室的动力驱动。这使像Vanguard这样的团队能够将多个工具整合到一个专为机器学习工作流程优化的基于笔记本的IDE中。

近日,在2022年,亚马逊云科技推出了SageMaker Studio Lab,将托管笔记本的好处带给了几百万非亚马逊云科技的Jupiter用户。Studio Lab提供了免费的基于浏览器的Jupiter笔记本,包括免费的计算和存储,无需创建亚马逊云科技帐户即可开始使用。这进一步扩大了人们对亚马逊云科技强大笔记本功能的访问。

由于与Jupiter笔记本生态系统的长期紧密合作,亚马逊云科技了解笔记开发者面临的挑战和痛点。尽管笔记本有助于加速实验,但一些常见的工作流程(从数据准备到协作再到产品化)可能会阻碍生产力。例如,Vanguard的数据分析师和科学家表示,在他们开始建立模型之前,他们需要在编码数据可视化和诊断方面投入过多时间。数据工程师也面临着类似的问题,他们必须手动管理大规模分布式数据处理所需的Spark集群。

典型的笔记本开发工作流程从在笔记本中收集初始数据样本开始,以便进行探索。这包括大量的预先编码工作,以可视化数据分布、检测异常并清理数据。接下来,为了建模准备更大的数据集,需要配置和管理一个独立的计算集群。

在数据预处理之后,笔记本支持通过调整代码、特征和参数来进行快速的实验。然而,如果没有标准工具,跟踪实验和衡量不同运行性能可能会变得混乱。此外,当通过Slack或电子邮件附件共享笔记本时,与其他人合作也会变得更加困难。

最后,将笔记本移到生产环境中需要将代码提取成脚本、打包依赖项、配置基础设施以及协调整个工作流程。每个步骤都为专注于构建模型而非生产系统的数据科学家增加了额外的负担。

为了帮助解决这些生产力瓶颈,亚马逊云科技宣布将为SageMaker Studio笔记本提供一系列新的功能:

  1. 内置的数据预处理功能,由SageMaker Data Wrangler驱动,可替代手动编写用于数据可视化和清理的代码。
  2. 无服务器内核,用于在亚马逊云科技Glue上运行Spark和Ray,提供即时访问大规模数据处理的能力,无需管理集群。
  3. 在SageMaker Studio内的实时协作,简化与他人的笔记分享。
  4. 一键将笔记本转换成定时任务,以便进行生产部署。

使用内置的数据预处理功能,数据显示框会自动生成每个列的交互式可视化,而无需任何编码。这使得像Vanguard这样的分析人员能够更快地探索数据分布并检测到异常或偏斜数据,而无需编写自定义数据可视化代码。

对于机器学习任务,笔记本还会自动显示关于目标列的洞察,以检查不平衡的类别或不足够的样本。数据科学家可以在训练模型之前审查改进数据质量的推荐。

清理数据偏见也得到简化。提供的修复建议可以在线查看并通过点击应用。相应的数据预处理代码随后被添加到笔记本中以进行重现。这消除了手动编写可视化和数据诊断代码的需求。

对于大型数据集,使用亚马逊云科技的Glue服务的新无服务器Spark和Ray内核可以减轻配置和维护计算集群的工作负担。通过简单的命令行操作,无服务器会话即可立即启动,为用户提供可扩展的数据处理能力。这使得Vanguard的数据工程师团队能够在无需管理长期存在的集群的情况下运行分布式任务。

根据工作负载的需求,会话会自动调整大小。当笔记本内核关闭时,会话也会终止,因此只需为您使用的部分付费。这样可以优化零星数据处理需求的成本。

在SageMaker Studio中,跟踪实验并与他人合作也变得更加简单。新的协作空间使得与团队成员共享笔记本以进行实时编辑、执行和审查变得非常容易。笔记本、模型、实验和其他成果都在此空间内自动组织并可用。

这样,就不再需要将笔记本通过Slack或电子邮件传递。数据科学家可以与同事更快速地进行迭代,而不会受到工作流程的中断。像Vanguard这样的团队强调更好的协作作为其环境改进的关键机会。

最后,将笔记本转换为生产作业的流程现在只需要点击几次。SageMaker负责将笔记本、依赖项和运行时环境打包成容器。基础设施将自动调配以按照设定的时间表或触发器运行笔记本。

完成的带有结果的笔记本被存储回Studio进行检查。这样消除了重新设计为生产工作流程的负担,这是Vanguard数据工程师提到的一个主要瓶颈。

演示员以一家公司的可持续性研究部门的数据科学家的身份展示了这些新功能。他从一个旨在预测氮氧化物水平的项目开始,该项目的目标是基于天气数据。他在SageMaker Studio的该项目协作空间中,使用简单的命令行操作初始化了一个具有Spark的亚马逊云科技Glue无服务器会话。

这立即为一个包含25个节点的集群提供了探索从S3加载的42GB空气质量数据的机会。他编写标准的Spark数据帧,过滤西雅图的数据,按天平均氮氧化物浓度,将聚合结果存储回S3。分析完天气数据后,他仅通过重新启动笔记本内核就关闭了Glue会话。

接下来,他将空气质量和天气数据框导入到他的笔记本电脑中。数据显示,这些数据触发了内置的数据可视化功能,包括直方图和偏度检测。通过点击推荐的数据修复选项,他迅速处理了空值并配置了机器学习的问题类型。

作为第一次尝试建立模型,他训练了一个线性回归模型,但仅取得了0.018的中等成绩。借助实时协作功能,一名名为Sumit的机器学习专家可以同时打开笔记本电脑,添加随机森林回归器代码,并将得分立即提高到0.99。

为了展示如何将参数化的笔记本安排设置为定期批量作业,进行了演示。这将使笔记本电脑每天运行,使用最新的天气数据预测二氧化氮,并将结果输出到Studio中。

通过利用无服务器大数据处理的便利性、可视化的数据准备、协作以及预定的作业,这些新功能展示了如何在整个机器学习工作流程中提高生产力。

演示结束后,来自Vanguard的Ritesh Shah谈论了他的团队关于改善他们的数据平台和分析环境,使用SageMaker Studio来提高生产力的愿景。

作为全球最大的投资公司之一,Vanguard管理着超过7.1万亿美元的资产。其首席数据办公室负责监督利用数据获得竞争优势以及管理风险。

Vanguard的一个关键战略目标是缩短内部洞察的时间。然而,由于当前的限制,他们在配置访问权限、提供资源以及设置工具之前,需要花费数周甚至数月的时间。

目前,Vanguard每天在各个集群中运行大约27,000个EMR节点,以及90个Redshift节点。他们平均每天约有5000个Athena查询和1100个Glue ETL作业。他们的数据湖已经增长到超过20亿字节的S3存储。

Vanguard每天有大约350个独特的SageMaker用户,总共1500个数据工作者。因此,只有他们最先进的数据科学家在使用SageMaker,而其他角色则依赖于一组碎片化的其他工具。

数据分析师使用EMR笔记本进行临时分析,或者使用Athena进行查询。数据工程师通常在Glue中构建ETL作业,或者在EMR集群中编写PySpark代码。数据科学家则配置SageMaker实例来开发模型。然而,这种碎片化的方式导致了不同界面、上下文和系统之间的复杂跳跃,从而阻碍了团队协作。此外,为每个系统配置权限和资源的运营开销也降低了生产力。

一个愿景是将SageMaker Studio整合成一个通过浏览器访问的单一环境,从而无需在不同的工具之间切换。所有工作流程,从临时SQL查询到Spark ETL到机器学习,都可以通过笔记本、Data Wrangler和工作站在工作室完成。这样,数据工作者不再需要自己配置访问权限、资源和基础设施。Vanguard计划将自动化权限、EMR和Glue等计算目标的供应以及到数据源(如S3)的连接。这将消除数据团队和IT员工的额外负担。

内置的协作功能将简化跨团队的共享和协调。增强的监控和优化成本将优先考虑负责地扩展数据工作负载。展望未来,Vanguard正与亚马逊云科技合作,除了模型构建之外,还丰富了SageMaker Studio的体验。改进对数据工程和数据操作等任务的可用性将消除摩擦。与亚马逊云科技数据服务的更紧密集成将通过诸如Lake Formation权限自动化等功能简化访问控制并节省设置时间。多区域支持还将帮助提高弹性和正常运行时间。

通过提供统一的、自动化的和协作的分析环境,Vanguard旨在赋予其数据工作人员权力,并将获得洞察力的时间从数周缩短到数天。SageMaker Studio将成为核心,使数据和计算资源能够自助服务访问,同时还可以连接整个组织的团队和工作负载。总之,演示展示了SageMaker Studio笔记本中的新功能如何可以加速数据科学家和机器学习开发人员的生产力。自动数据准备、无服务器计算、无缝协作和简化的部署消除了笔记本生命周期中的主要痛点。

先锋公司从业务角度探讨了碎片化工具和界面的问题。通过在Amazon SageMaker Studio上提供统一的分析体验,有望大幅降低复杂性、减少额外成本并缩短获取洞察力的时间。

总的来说,这些创新展示出亚马逊云科技如何致力于根据大规模的真实客户需求来优化用户体验。通过将直接反馈纳入产品开发计划,亚马逊云科技使得更多像先锋这样的企业能够更快地实现其数据科学目标。

下面是一些演讲现场的精彩瞬间:

这些图片揭示了三个不同科学领域中具有里程碑意义的时刻,这些时刻推动了人类知识的进步。

领导者们讨论了亚马逊的SageMaker Studio如何使得数据科学家们能够在笔记本中轻松地与同行进行协作,而不会产生难以追踪的多个副本。

通过使用笔记本功能,数据科学家们可以获得自动化的数据质量见解和建议,从而在点击几次之后就能提高模型的准确性,并生成可重复的数据准备代码。

笔记本作业的输出显示了一些注入参数并存储了图表的渲染笔记本。

Vanguard的数据策略有助于提高性能并改善投资者的体验。

建立一种强大的数据文化,让所有的员工都能够用数据来驱动决策,并且开发简单、快速的分析工具,以提供推动成果向前发展的见解。

领导者们强调了亚马逊云科技致力于支持一个高度可靠的多区域平台,以实现最少停机时间的数据洞察。

总结

亚马逊云科技(Amazon Web Services)的re:Invent(Amazon Summit)是该公司发布新云计算服务和功能的主要活动。在今年的AIM320会议上,亚马逊云科技展示了一系列针对SageMaker Studio的新功能,旨在提高机器学习开发者的生产力。

会议首先强调了Jupyter笔记本在科学和数据分析领域的重要性。然而,开发者在使用笔记本进行数据准备、尝试模型和生产方面仍然存在一定的困扰。

亚马逊云科技展示了SageMaker Studio内置的数据预处理功能,以便开发者更轻松地探索和清理数据集。此外,还推出了由亚马逊云科技Glue管理的无服务器Apache Spark和Ray内核,以实现可扩展的数据处理。为了在实验过程中进行协作,SageMaker还引入了实时编辑和执行相同笔记本的功能。最后,现在只需点击几下即可将笔记本部署为作业,无需手动打包或设置基础设施。

Vanguard公司分享了这些功能如何与其目标保持一致,即将获得见解的时间从几周缩短到几天。他们希望通过SageMaker Studio提供统一的用户体验,使数据工作者能够在一个环境中查询数据、编写ETL作业和构建ML模型,而无需切换上下文。自动化环境设置和访问控制将减轻其数据工作者的操作负担。Vanguard还在探索增强功能,如将笔记本与其他亚马逊云科技服务集成,以实现无缝的数据工程和机器学习工作流程。

此次会议展示了SageMaker Studio笔记本的专用功能如何加速开发和部署ML应用程序。通过解决使用笔记本的痛点,亚马逊云科技帮助用户更快更有效地获得洞察。

演讲原文

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值