生产中的ML-1：Amazon Sagemaker-AWS，设置，训练和部署

最新推荐文章于 2024-07-10 19:50:20 发布

磐创 AI

最新推荐文章于 2024-07-10 19:50:20 发布

阅读量1.6k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fendouaini/article/details/108351056

版权

本文介绍了如何使用Amazon SageMaker进行机器学习模型的生产部署。从设置Sagemaker Notebook实例，到数据预处理、模型训练、评估和部署，详细阐述了每个步骤。文中以波士顿房价数据集为例，使用Sagemaker的XGBoost模型进行训练，并强调了模型部署到生产环境的关键考虑因素，如概念漂移和监控。

摘要由CSDN通过智能技术生成

作者|Roshini Johri 编译|VK 来源|Towards Data Science

将大规模的机器学习系统投入生产，建立一个漂亮的流线化功能库，这已经成为我一个新痴迷的技术点。

我最近开始了一系列关于学习和教学如何做到这一点的三部分教程，以实现不同的机器学习工作流程。本文假设了机器学习模型的基本知识，并重点介绍了如何在生产中建立工作流和部署。

在本系列的第一部分中，我们将在Amazon Sagemaker上设置此功能。我们将使用sklearn的波士顿住房数据集。

机器学习生命周期

让我们花点时间来回顾一下机器学习的生命周期。简化的机器学习生命周期如下所示：

现在，第一部分，数据准备，实际上应该是包括数据预处理和用于接下来步骤所需的特征工程。我将简要地概述这些步骤是什么样子。

获取数据：这是一个从repo、etl等读取数据的过程，将数据移动到一个位置，以形成训练数据的原始版本。
清理数据：这个阶段更多的是做一些基本的清理，比如类型转换、空处理、确保字符串/类别等是一致的
准备/转换：特征转换、派生、高阶特征，如交互特征、进行一些编码等。

下一阶段包括建模和评估阶段：

训练模型：在这个阶段，你的数据应该以特征向量的形式出现，标签分为训练、验证和测试。在这个阶段，你将读取这些数据，在训练集上训练你的模型，在验证集上调参并在测试集上进行测试！这也是你保存模型以进行评估的阶段。
评估模型：评估阶段，判断是否“我的模型做正确的事情”，是最重要的阶段之一，我觉得我们从来没有花足够的时间在这个阶段上。模型评估将帮助你了解模型性能。注意你的模型评估指标，并选择正确的指标。

最后，也是我们阅读本文的真正原因，部署。

部署到生产环境：这是准备将模型发布到公共的阶段。我们要注意概念漂移和模型衰减（由于底层分布的变化而导致性能的变化）
监控/收集/评估数据：模型性能、输入/输出路径、错误度量、日志、模型组件等都将被时间戳标记和记录，应围绕模型选择建立度量监控和警报系统，以实现完美的管道！

以上是一个简化但很漂亮的机器学习管道。现在让我们看看如何使用Amazon Sagemaker设置一个。

Amazon Sagemaker

现在，第一步从创建AWS帐户开始。如果你已经熟悉Amazon提供的实例（ec2实例）的类型，这会有所帮助。

如果没有，可以查看这个链接：https://aws.amazon.com/sagemaker/pricing/instance-types/

Sagemaker实例针对运行机器学习（ML）算法进行了优化。实例的类型还取决于区域和可用区域。

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

磐创 AI

CSDN认证博客专家 CSDN认证企业博客

码龄14年

710: 原创

9923: 周排名

36万+: 总排名

247万+: 访问

: 等级

2万+: 积分

8100: 粉丝

2517: 获赞

627: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

用PyTorch实现图像聚类
普通网友: 能不能教一下怎么新训练？
最便捷的神经网络可视化工具之一--Flashtorch
椒盐玛奇朵: flashtorch.utils里面没有visualize函数，请问该如如何解决？
新手必备 | 史上最全的PyTorch学习资源汇总
q-类星体: 我试用了autodl，inscode和炼丹侠的服务器产品，其中炼丹侠的服务器算是相当不错的，炼丹侠的算力市场上架了大批量的A100，和其他几个产品相比这个平台的服务器质量是比较高的，而且价格也不贵，和autodl价格相仿，当前处于内测阶段，免费试用，之后还能薅羊毛，还没服务器的铁子们赶快入手了
PyTorch:Bi-LSTM的文本生成
quzw: https://cloud.tencent.com/developer/article/1759341?from=15425 相同内容，无需付费
使用NLP检测和对抗AI生成的假新闻
羰陽: 辣鸡网站，转载文章还要会员，我直接去看原文了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。