亚马逊的sagemaker_评论：Amazon SageMaker赶超

最新推荐文章于 2024-07-09 23:50:30 发布

cxq8989

最新推荐文章于 2024-07-09 23:50:30 发布

阅读量393

点赞数

文章标签：机器学习人工智能深度学习 java python

原文链接：https://www.infoworld.com/article/3534699/review-amazon-sagemaker-plays-catch-up.html

版权

亚马逊的sagemaker

当我在2018年回顾Amazon SageMaker时，我注意到这是一种高度可扩展的机器学习和深度学习服务，支持自己的11种算法以及您提供的任何其他算法。超参数优化仍处于预览阶段，您需要进行自己的ETL和功能设计。

从那时起，SageMaker的范围不断扩大，通过IDE（SageMaker Studio）和自动机器学习（SageMaker Autopilot）扩展了核心笔记本，并向整个生态系统添加了一系列重要服务，如下图所示。该生态系统支持机器学习，从准备到模型构建，培训，调整到部署和管理，换句话说，是端到端。

[ 也在InfoWorld上：深度学习与机器学习：理解差异 ]

亚马逊智者01 — Amazon SageMaker Studio在较旧的SageMaker笔记本电脑上进行了改进，并且许多新服务增强了SageMaker生态系统，以支持端到端机器学习。

SageMaker中有什么新功能？

什么是新的？考虑到我上次发布SageMaker时才看过它，所以列表很长，但是让我们从最可见的服务开始。

SageMaker Studio，基于JupyterLab的IDE
SageMaker Autopilot，可自动构建和训练多达50个可以在SageMaker Studio中检查的功能工程模型
SageMaker Ground Truth，它有助于构建和管理训练数据集
SageMaker笔记本现在提供弹性计算和单击共享
SageMaker Experiments，可帮助开发人员可视化和比较机器学习模型的迭代，训练参数和结果
SageMaker Debugger，为机器学习模型提供实时监控，以提高预测准确性，减少培训时间并促进更大的解释性
SageMaker Model Monitor，它可以检测概念偏差，以发现生产中运行的模型的性能何时开始偏离原始训练的模型

其他显着的改进包括为笔记本计算机可选地使用竞价型实例以降低成本。一种新的P3dn.24xl实例类型，其中包括八个V100 GPU；一个AWS优化的TensorFlow框架，在训练多种类型的神经网络时可实现接近线性的可扩展性; Amazon Elastic Inference，可大大降低推理成本； AWS Inferentia，这是一种高性能的机器学习推理芯片；以及内置在SageMaker中并在AWS Marketplace中可用的新算法。此外，SageMaker Neo可以编译深度学习模型以在边缘计算设备上运行，而SageMaker RL（未在图中显示）提供了托管的强化学习服务。

SageMaker Studio

JupyterLab是Project Jupyter的下一代基于Web的用户界面。 SageMaker Studio使用JupyterLab作为IDE的基础，IDE是具有协作功能，实验管理，Git集成和自动模型生成的统一的在线机器学习和深度学习工作站。

下面的屏幕截图显示了如何使用终端选项卡和Git命令行将SageMaker示例安装到SageMaker Studio实例中。该示例的自述文件中提供了执行此操作的说明，该示例有点像Catch-22。您可以通过浏览GitHub上的Getting Started示例或通过将存储库克隆到您自己的计算机并在其中阅读来阅读它们。

亚马逊智者02 — SageMaker Studio在左侧显示文件夹视图，在右侧显示终端。在终端中，我们运行了一个Git命令行，使用来自GitHub的Amazon SageMaker示例填充实例。

亚马逊的入门示例包含一个名为xgboost_customer_churn_studio.ipynb的笔记本，该笔记本是根据有关预测客户流失的博客文章改编而来的。在Jupyter笔记本电脑上，它有很多解释，如下面的屏幕快照所示。

[ 也在InfoWorld上：用于AI开发的6种最佳编程语言 ]

亚马逊智者03 — Amazon SageMaker Studio演练。此示例涉及SageMaker Studio的四个主要功能：实验，调试器，模型托管和模型监视器。首先准备数据，然后进行培训，然后进行托管和监视。

亚马逊智者04 — 在XGBoost笔记本的第4步和第5步中，我们快速浏览了培训数据并将文件上传到Amazon S3。如果所需的存储桶不存在，我们将创建它。

亚马逊智者05 — 在第6步到第9步中，我们设置了实验并定义了用于XGBoost训练的超参数。我们从内置的XGBoost算法开始。

亚马逊智者06 — 在第10步中，我们创建一个试用版并进行第一次培训。请注意，我们正在使用一个ml.m4.xlarge实例进行培训。

亚马逊智者07 — 在步骤11中，我们针对min_child_weight超参数的不同值进行了另外五次训练。底部的图表是一个静态示例，但是我能够按照说明从该试用版的组件中创建自己的图表。

该示例继续运行附加培训，其中修改了外部XGBoost算法，以将调试信息保存到Amazon S3并调用三个调试规则。这就是所谓的框架模式，这意味着它不是内置算法。

培训全部完成后，您可以在“实验”标签中比较结果。

亚马逊智者08 — 在这里，我们在“实验”标签中比较了算法模式下六个试验的结果。在此视图中，结果按验证错误排序。

然后，该示例使用其deploy方法托管模型，并使用其predict方法测试部署的端点。最后，它使用培训数据集和报告任何约束违例的计划的监视作业创建基线作业。

[ 同样在InfoWorld上：8个出色的Python库，用于自然语言处理 ]

顺便说一下，XGBoost只是SageMaker内置的众多算法之一。下表显示了完整列表-您始终可以创建自己的模型。

亚马逊智者09 — Amazon SageMaker的内置算法。通过提供代码，您始终可以在“框架”模式下使用其他算法。

SageMaker自动驾驶仪

假设您不知道如何进行特征工程，并且对各种机器学习任务可用的不同算法不是很熟悉。您仍然可以使用SageMaker-使其在自动驾驶仪上运行。 SageMaker Autopilot能够处理高达5 GB的数据集。

在下面的屏幕截图中，我们正在运行直接营销与Amazon SageMaker Autopilot示例。首先下载数据，解压缩，将其上传到S3存储桶，然后通过调用create_auto_ml_job API启动自动驾驶仪作业。然后，我们在分析数据，进行特征工程和进行模型调整时跟踪作业的进度，如下所示。

亚马逊智者10 — 在右侧，我们看到SageMaker Studio中正在运行SageMaker Autopilot作业。它在大约四个小时内完成。在左侧，我们看到了SageMaker Studio的Git支持。

然后，该示例选择最佳模型，使用它来创建和承载端点，并运行转换作业以将模型预测添加到测试数据的副本中。最后，它找到由自动驾驶作业创建的两个笔记本。

有一个自动驾驶仪结果用户界面，尽管并不明显。如果右键单击automl实验，则可以看到所有带有其目标值的试验，如下所示。

亚马逊Sagemaker 11 — 单击“目标”列标题以对结果进行排序，并将最佳结果排在顶部；单击右上角的按钮以打开候选生成和数据浏览笔记本。

[ 同样在InfoWorld上：选择PyTorch进行深度学习的5个理由 ]

贤者地面真相

如果幸运的话，所有数据都将被标记或注释，并准备用作训练数据集。如果不是，则可以手动注释数据（标准的笑话是将任务交给研究生），或者可以使用将人工注释与自动注释结合在一起的半监督学习过程。 SageMaker地面真理就是这样的标记过程。

如下图所示，地面真理可以应用于许多不同的任务。借助Ground Truth，您可以使用来自Amazon Mechanical Turk或您选择的供应商公司的工作人员，或内部私有劳动力以及机器学习，使您能够创建带标签的数据集。

亚马逊智者12 — Amazon SageMaker Ground Truth将人工注释与自动注释结合起来，可将原始数据转化为用于模型构建的训练数据。

亚马逊提供了七个演练，演示了使用SageMaker Ground Truth的各种方式。

SageMaker Neo

直到最近，在边缘设备（例如智能手机和IoT设备）上部署训练有素的模型一直很困难。已经有特定的解决方案，例如用于TensorFlow模型的TensorFlow Lite和用于Nvidia设备的TensorRT ，但是SageMaker Neo会编译并自动优化TensorFlow，Apache MXNet，PyTorch，ONNX和XGBoost模型，以便在ARM，Intel和Nvidia处理器上进行部署作为高通，Cadence和Xilinx设备。

根据AWS的说法，Neo可以使模型的性能提高一倍，并可以将它们缩小到足以在内存有限的边缘设备上运行。

SageMaker推理部署选项

在计算，存储，网络传输等方面，部署用于生产推理的模型通常占深度学习成本的90％，而培训仅占成本的10％。 AWS提供了许多降低推理成本的方法。

其中之一是弹性推理。 AWS表示，Elastic Inference可以提高吞吐量，并减少从作为Amazon SageMaker托管模型部署的深度学习模型获取实时推理的延迟，但成本仅为将GPU实例用于终端的成本的一小部分。 Elastic Inference通过允许您将分数GPU附加到任何Amazon SageMaker实例来加速推理。

TensorFlow，Apache MXNet和PyTorch的启用了弹性推理的版本均支持Elastic Inference。要使用其他任何深度学习框架，请使用ONNX导出模型，然后将模型导入MXNet。

[ 通过InfoWorld Daily新闻通讯了解软件开发，云计算，数据分析和机器学习方面的最新发展 ]

如果每个加速器需要的弹性加速超过32 TFLOPS，则可以使用具有Nvidia T4 GPU的EC2 G4实例，或具有AWS Inferentia定制加速器芯片的EC2 Inf1实例。如果需要Inferentia芯片的速度，则可以使用AWS Neuron SDK将深度学习模型编译为Neuron可执行文件格式（NEFF），然后由Neuron运行时驱动程序加载该文件格式以在Inferentia上执行推理输入请求筹码。

在这一点上，Amazon SageMaker Studio预览足以用于端到端机器学习和深度学习：数据准备，模型训练，模型部署和模型监视。尽管用户体验仍然需要改进，例如更好地发现功能，但Amazon SageMaker与其他云中可用的机器学习环境相比具有竞争优势。

成本：每实例小时$ 0.0464至$ 34.272，具体取决于CPU和GPU的数量； SSD储存：每月每GB $ 0.14；数据传输：$ 0.016 / GB出入。

平台：托管在Amazon Web Services上。