AWS Sagemaker详解

Sagemaker各个组件的介绍

Ground Truth

  1. Sagemaker Ground Truth Labeling platform。
  2. 图片语义分析= Amazon SageMaker Ground Truth semantic segmentation labeling task
  3. Ground Truth Active Learning will require human labelling only when needed, works well with small internal team

Carify

  1. Sagemaker Clarify 评估模型,解释模型(SHAP),优化模型。
  2. 检测数据偏差(bias)。

Debugger

  1. Sagemaker Debugger可以监控模型训练中的weights,梯度等,并据此优化模型提高计算效率。
  2. Sagemaker Debugger可以展示SHAP。

Monitor

  1. Sagemaker Monitor监控 model drift。

Data Wrangler(特征工程、数据准备)

  1. Sagemaker Data Wrangler preconfigured transformation/template快速探索特征和数据准备。
  2. Data Wrangler还可以检测样本的outliers、bias。以及进行归一化。

AutoPilot

  1. Amazon SageMaker Autopilot 无代码ML,但不支持custom container。

Canvas

  1. 无代码数据准备。

Endpoint

  1. 一个Sagemaker endpoint可以带多个model production variants。通过DesiredWeight提高模型Variant的使用率。
  2. A/B test=create a new endpoint configuration with two variant then update the existing endpoint.

Experiment

  1. Sagemaker Experiment比较不同模型、不同参数、不同数据的训练效果。支持custom container。

NEO

  1. Sagemaker Neo优化模型,使机器学习模型预测可在云和边缘站点中的任何位置运行。

Feature Store特征商店

  1. Online feature store for online inference。Offline store for training。
  2. Feature store GetRecord API获取最新的record。

网络、安全、日志相关

  1. Sagemaker的instance可以建在用户的VPC中,也可以在AWS Managed Service Account在VPC中。
  2. Sagemaker的如下信息可以在Cloudwatch中看:
    1. Sagemaker服务器情况
    2. 模型性能
    3. 模型运行日志
  3. CloudTrail可以记录模型的部署事件,Sagemaker API调用。
  4. Notebook instance在private subnet时,可以用S3 VPC endpoint来访问S3.
  5. Notebook instance can disable internet access.
  6. Sagemaker VPC interface endpoint(severless)可以配合AWS PrivateLink。
  7. 限制Sagemaker API call的IAM User = VPC endpoint policy。限制Sagemaker API call的instance = security group
  8. Network isolation for training jobs处理机密或敏感数据。
  9. private workforce in Amazon SageMaker Ground Truth make the data accessible to authorized users only.
  10. Notebook presigned URL can restrict IP.
  11. Sagemaker的Jupyter Notebook能自动打补丁。
  12. 通过RAM跨账号分享特征。

成本相关

  1. GPU服务器高效使用 = ECS with GPU
  2. AWS Deep Learning Containers+AWS Batch+spot instance=省钱运行长时间的机器学习任务
  3. Endpoint instance自动扩缩容
  4. Managed spot training with job checkpoint enabled.
  5. Sagemaker batch transform=Serverless Inference
  6. Amazon Elastic Inference(retired)
  7. Sagamaker Debugger vanishing_gradient and LowGPUUtilization rules
  8. 调整CPU:GPU ratio

技巧

  1. Sagemaker访问大量的训练数据,使用pipe input mode处理大文件,Fastfile mode处理S3小文件。
  2. RecordIO是Sagemaker中专用的提升模型训练速度的数据格式,支持图片。
  3. Sagemaker支持使用ECR中的自定义镜像。
  4. Sagemaker ENTRYPOINT用来指向自定义容器的训练程序。
  5. Sagemaker Python SDK支持私域训练。(no WiFi)
  6. Lifecycle configuration enable auto package installation.
  7. Sagemaker endpoint重新训练后有violation=run the model monitor baseline job again
  8. Sagemaker可以读取EFS。
  9. Sagemaker notebook可以通过glue development endpoint来创建。
  10. Sagemaker Pipeline 调度模型的取数,训练和部署。

  • 8
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱知菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值