AI 模型大杀器—— Amazon SageMaker 实现高精度猫狗分类

2fa9331dee0fa08e22254715a261f93d.jpeg

8e5630c6b83b420332876e83925330f2.png

本篇文章是亚马逊云科技【云上探索实验室】活动的开发者体验分享。通过云上探索实验室,开发者可以用技术实验、产品体验、案例应用等方式,与其他开发者小伙伴一同创造、互助启发,玩转云上技术,为技术实践提供无限可能。云上探索实验室不仅是体验的空间,更是分享的平台,欢迎各位加入!

outside_default.png

Hello大家好,我是 Dream。 

最近受邀参与了亚马逊云科技【云上探索实验室】活动,基于 SageMaker 实现了机器学习中一个非常经典的案例:猫狗分类。最让我惊喜的是模型训速度比想象中效果要好得多,而且速度十分迅速,而且总体感觉下来整个过程十分便利,使用起来也是得心应手。 那接下来跟随我的视角,来一起复盘一下整体做的过程,来感受一下其强大便利之处。

在我们的日常生活和学习中,尤其是针对人工智能专业的学生以及工作者而言,机器学习、神经网络是我们每天都要接触的工作,复杂多样的环境配置以及高要求的运行配置总让我们十分头疼,正因此我推荐大家去使用 Amazon SageMaker,轻松解决你的烦恼。Amazon SageMaker 是亚马逊云计算(Amazon Web Service)的一项完全托管的机器学习平台服务,算法工程师和数据科学家可以基于此平台快速构建、训练和部署机器学习(ML)模型,而无需关注底层资源的管理和运维工作。它作为一个工具集,提供了用于机器学习的端到端的所有组件,包括数据标记、数据处理、算法设计、模型训练、训练调试、超参调优、模型部署、模型监控等,使得机器学习变得更为简单和轻松;同时,它依托于亚马逊云科技强大的底层资源,提供了高性能 CPU、GPU、弹性推理加速卡等丰富的计算资源和充足的算力,使得模型研发和部署更为轻松和高效。

Amazon SageMaker 由以下三大主要部分组成:

创作:无需进行任何设置,使用 Jupyter Notebook IDE 就能进行数据探索、清洁与预处理。我们可以在常规实例类型或 GPU 驱动型实例当中运行此类工作负载。

模型训练:一项分布式模型构建、训练与验证服务。我们可以利用其中的内置常规监督与无监督学习算法及框架,或者利用 Docker 容器 创建属于自己的训练机制。其模型训练规模可囊括数十个实例,以支持模型构建加速。训练数据读取自 S3,训练后的模型成果亦可存放在 S3 存储桶内。最终得出的模型结果为数据相关模型参数,而非模型当中进行推理的代码。

模型托管:模型托管服务可配合 HTTP 端点 以调用模型进行实时推理。这些端点可进行规模扩展,从而支持实际流量;我们也可以同时对多套模型进行 A/B 测试。此外,我们也可以使用内置的 SDK 构建这些端点,或者选择 Docker 镜像提供自己的配置选项。

上述组成部分皆可独立使用,这意味着 Amazon SageMaker 将能够轻松填补现有流程中的空白环节。换句话来说,当开发人员以端到端方式使用该服务时,将能够享受到由其提供的强大功能。那本文我们就来使用 Amazon SageMaker 快速实现高精度猫狗分类问题。

01

环境准备

1. 登录 Amazon SageMaker 控制台,选择“笔记本实例”。

Amazon SageMaker 提供了一个完全集成的机器学习开发环境,能有效提高我们构建模型的效率和能力。我们可以在一键式 Jupyter notebooks 帮助下,以闪电般的速度进行构建和协作。SageMaker 还为这些 notebooks 提供了一键式共享工具。整个编程的结构都会被自动捕获,同时我们可以毫无障碍地与其他人协同工作,分享我们的训练效果和新心得。

458cce1ff47808cecc41bc84cfe311e9.png

2. 在“笔记本实例”页面上,单击“创建笔记本实例”。

在“创建笔记本实例”页面中,输入名称、选择实例类型和计算资源等配置信息,并新建安全组。

4461677b8db1fb118bc1b4140cfdd34f.png

在新的界面下,输入该 Notebook 实例的名称,并在 Notebook instance type 处选择实例的类型。同时,设置该实例的存储磁盘大小,默认是 5GB,截图中我们手动改为 30GB,该容量后期同样可以调大。

7b8d3854a1fea3647cb91c922a1fe9b6.png

最后选择创建笔记本实例,SageMaker 就将创建该 Notebook 实例。在笔记本实例界面可以看当前的实例列表及其状态,如果状态为 InService,在操作列有 打开 Jupyter |打开 JupyterLab 的选项。

在机器学习中,Notebook 已经是常见的形式了,很多云平台都采用了这种编辑形式。因为可以与代码交互,用它来开发机器学习代码实在是再合适不过了。在 SageMaker Studio 中,除了 Notebook 传统擅长可视化,还额外加了一些可视化组件管理模型的实验过程。

本来用 Notebook 写轻量代码就非常方便,再加上 SageMaker 自己提供的大量精炼 API,它们之间的配合特别融洽。对于那些费时费力的底层资源管理繁杂过程,交给 SageMaker API 就行了,剩下的只要在 Notebook 写下算法逻辑,这才是机器学习开发者最高效的姿势。

3c523c212e04194011574d426e0d61af.png

点击 Open Jupyter,将自动弹出一个新的页面,加载完成后,出现我们熟悉的 Jupyter Notebook 界面。

da5e2379c04de11c6547301eaa0d19a2.png

其中在 SageMaker Examples 页面下,在右侧 New 下拉菜单中,您可以选择创建的开发环境,此处我们选择 conda_python3 以进行后面的内容。

6e758f37d4aac5ae76a9bf18823298e6.png

3.创建存储桶用来存放本次实验数据

猫狗数据集介绍:

猫狗数据集包括25000张训练图片,12500张测试图片,包括猫和狗两种图片。在此次实验中为了训练方便,我们取了一个较小的数据集。数据解压之后会有两个文件夹,一个是“train”,一个是“test”,顾名思义一个是用来训练的,另一个是作为检验正确性的数据。

b7e95ef924740c8a6f6fe9e0040b9979.png

在 train 文件夹里边是一些已经命名好的图像,有猫也有狗。而在 test 文件夹中是只有编号名的图像。

7aaa86659b4a3985f8daa6aa3e57272e.png

图片展示

下面是数据集中的图片展示:

class_names = ['cats', 'dogs']


plt.figure(figsize=(10, 10))
for images, labels in train_dataset.take(1):
  for i in range(9):
    ax = plt.subplot(3, 3, i + 1)
    plt.imshow(images[i].numpy().astype("uint8"))
    plt.title(class_names[labels[i]])
    plt.axis("off")

左滑查看更多

这里是输出的结果:

02c6ff9e0ad8e3a67d1736a43c3f5631.png

02

下载数据集并将其进行数据预处理

数据集加载,数据是通过这个网站下载的猫狗数据集:http://aimaksen.bslience.cn/cats_and_dogs_filtered.zip?trk=cndc-detail ,实验中为了训练方便,我们取了一个较小的数据集。

path_to_zip = tf.keras.utils.get_file(
    'data.zip',
    origin='http://aimaksen.bslience.cn/cats_and_dogs_filtered.zip',
    extract=True,
)
PATH = os.path.join(os.path.dirname(path_to_zip), 'cats_and_dogs_filtered')


train_dir = os.path.join(PATH, 'train')
validation_dir = os.path.join(PATH, 'validation')


BATCH_SIZE = 32
IMG_SIZE = (160, 160)

左滑查看更多

数据集管理

使用 image_dataset_from_director 进行数据集管理。

train_dataset = image_dataset_from_directory(train_dir,
                                             shuffle=True,
                                             batch_size=BATCH_SIZE,
                                             image_size=IMG_SIZE)


validation_dataset = image_dataset_from_directory(validation_dir,
                                                  shuffle=True,
                                                  batch_size=BATCH_SIZE,
                                                  image_size=IMG_SIZE)

左滑查看更多

加载预训练模型

val_batches = tf.data.experimental.cardinality(validation_dataset)
test_dataset = validation_dataset.take(val_batches // 5)
validation_dataset = validation_dataset.skip(val_batches // 5)

左滑查看更多

03

构建、训练和部署您的模型。

在 Jupyter Notebook 中使用 SageMaker Python SDK 来构建、训练和部署模型。

1. Stable Diffusion 模型介绍

在此次训练中,我们用到了亚马逊用于预测产品的需求和销售趋势的一种模型—— Stable Diffusion 模型。

它基于随机漫步和稳定性假设,能够描述价格波动的实际情况。该模型认为价格变化由两个部分组成:一个稳定的长期趋势和一个随机的短期波动。

该模型有四个主要参数:稳定指数 alpha 、漂移参数 beta 、标准差 sigma 和时间间隔 delta 。其中 alpha 表示价格波动的稳定程度,越大则波动越不稳定;beta 表示价格的长期趋势;sigma 表示价格离散度或者说波动大小,越大则价格波动越大;delta 表示时间间隔。

总体体验下来,该模型给我以下的感觉:

  1. 可以处理缺失值:Stable Diffusion 模型可以有效地处理数据中的缺失值,这使其在面对现实中的不完整数据时更加可靠。

  2. 考虑市场饱和度:该模型能够考虑市场饱和度对产品需求的影响,从而预测产品在市场上的销售情况。

  3. 能够灵活应用:该模型十分灵活,可以根据不同类型的产品和市场需求进行调整和改进,因此适用范围广泛。

Stable Diffusion 模型在预测产品销售趋势方面具有较高的准确度和可靠性,是亚马逊在产品销售策略制定中的重要工具之一。

2. 训练

做机器学习的朋友应该都了解,ML 中的数据预处理是最麻烦的,而在 IDE 处理数据需要特别好用的可视化,从而给我们关于数据最直观的理解。与此同时,手动调参也需要特别好的可视化,来帮助我们对比不同算法和超参训练出来的模型效果。

而 Amazon SageMaker 正好可以为我们提供很好的可视化效果,为我们的训练以及调参带来极大的便利。作为一个完全托管的机器学习平台,SageMaker 把软件技能抽象化,能让我们通过一组直观并且易于使用的工具,就能构建、训练想要的机器学习模型。

inital_input = tf.keras.applications.mobilenet_v2.preprocess_input
IMG_SHAPE = IMG_SIZE + (3,)
base_model = tf.keras.applications.MobileNetV2(input_shape=IMG_SHAPE,
                                               include_top=False,
                                               weights='imagenet')
base_model.trainable = False
base_model.summary()

左滑查看更多

这里是输出的结果:

15e63f6f9d69cc615dcf2df01e86d4c7.png

3. 训练结果可视化

用图表显示准确率和损失函数

# 训练结果可视化,用图表显示准确率和损失函数
acc = history.history['accuracy']
val_acc = history.history['val_accuracy']


loss = history.history['loss']
val_loss = history.history['val_loss']


epochs_range=range(initial_epochs)
plt.figure(figsize=(8,8))
plt.subplot(2,1,1)
plt.plot(epochs_range, acc, label="Training Accuracy")
plt.plot(epochs_range, val_acc,label="Validation Accuracy")
plt.legend()
plt.title("Training and Validation Accuracy")
 
plt.subplot(2,1,2)
plt.plot(epochs_range, loss, label="Training Loss")
plt.plot(epochs_range, val_loss,label="Validation Loss")
plt.legend()
plt.title("Training and Validation Loss")
plt.show()

左滑查看更多

 这里是输出的结果:

cca9a1168a1a14941de2530aac088118.png

托管与实时推断现在我们的模型已经完成了训练,并可用于进行实际预测!利用之前提到的代码,这里创建并启动一个端点。

predictor = m.deploy(initial_instance_count=1, instance_type='ml.c4.xlarge')

左滑查看更多

而后运行以下命令调用该端点: 

predictor.predict(img_input)!

就这么简单,只需要不足100行代码,我们的端到端机器学习流程即构建完成。

04

运行文件,查看模型的训练和评估结果

Amazon Tensorflow optimization 通过其庞大的256 GPU,可以提高最多90%的扩展性。这样,在很短的时间内,我们就可以体验到精确、复杂的训练模型。而且,Amazon SageMaker 附带的 Managed Spot Training,还可以降低培训成本的90%。因为在本地总会因为配置问题使得运行速度非常缓慢甚至中途报废,所以说对运行的结果以及速度我还是非常期待的。

1. 输出训练的准确率

# 输出训练的准确率
test_loss, test_accuracy = model.evaluate(test_dataset)
print('test accuracy: {:.2f}'.format(test_accuracy))

左滑查看更多

这里是输出的结果:

075d2d54902783ff0afca6ccdbd85d36.png

然后我们借用 cnn 工具可视化一批数据的预测结果:

label_dict = {
    0: 'cat',
    1: 'dog'
}


test_image_batch, test_label_batch = test_dataset.as_numpy_iterator().next()
# 编码成uint8 以图片形式输出
test_image_batch = test_image_batch.astype('uint8')


cnn_utils.plot_predictions(model, test_image_batch, test_label_batch, label_dict, 32, 5, 5)

左滑查看更多

这里是输出的结果: 

1d2b66b6bcbcc739d8f175ded59506c1.png

2. 数据输出

# 数据输出,数字化特征图
test_image_batch, test_label_batch = train_dataset.as_numpy_iterator().next()


img_idx = 0
random_batch = np.random.permutation(np.arange(0,len(test_image_batch)))[:BATCH_SIZE]
image_activation = test_image_batch[random_batch[img_idx]:random_batch[img_idx]+1]


cnn_utils.get_activations(base_model, image_activation[0])

左滑查看更多

3cad035b28c0ed37464a3490a8544311.png

Amazon SageMaker 在数据导入,输出方面具有明显优势,易用性方面国内部分厂商也同样优秀。同时对于 TensorFlow 和 PyTorch 的支持度都比较好。

3. 图像结果输出

这里是输出的结果:

834d6bf44c9b015716f4ba3835b830fe.png

c6726ee6b8c6a068233b14faff863904.png

运行之后,我们发现计算结果准确性高达了0.97,可以说是准确度相当之高了,经过可视化之后输出的图像也是肉眼可见的准确!而且相比于在本地运行其简便性十分突出,这次技术体验比我想象的好太多,技术体验耗时不到10分钟,解决了最头疼的配置和调优问题,简化了开发流程,提升了开发效率,可以快速帮助我们构建、训练和评估模型。并且训练速度极快,0.1s 内就可以将所有项目输出结果全盘脱出!

05

使用体验总结

Amazon SageMaker 的优势在于不必安装,也不需要手动扩展,只要保证网络畅通,有兼容的浏览器保证运行即可。它提供了一个完整的机器学习套件,其中包括 IDE、API、调试、监控工具等,可以在机器学习建模的各个流程环节处理好关键事项。

3727e6493d5f6a4c474f0b4ac84499c8.png

相对于传统的机器学习开发,使用 Amazon SageMaker 可以带来以下几个方面的优势:

  1. 快速构建和测试:Amazon SageMaker 提供了内置算法和模型模板,可以快速构建、训练和评估模型。此外,您还可以使用 Amazon SageMaker Studio 和 Amazon SageMaker Notebook Instance 进行交互式开发和调试。

  2. 易于部署和扩展:使用 Amazon SageMaker,您可以轻松地将训练好的模型部署到实时终端节点或批处理推理作业中。您还可以根据需要自动缩放模型推理容量。

  3. 成本效益:Amazon SageMaker 提供了灵活的定价模型,使您的机器学习应用程序能够按需缩放,从而节约成本。

  4. 安全性和合规性:Amazon SageMaker 采用多层安全措施来保护您的数据和模型。此外,Amazon SageMaker 还符合多种合规标准,如 HIPAA、PCI、SOC 1/2/3 等。

  5. 强大的生态系统:Amazon SageMaker 集成了许多其他亚马逊云科技服务,例如 Amazon S3、Amazon Redshift、Amazon Athena 等,让您的机器学习工作流程更加无缝。

  6. 按使用量付费:Amazon SageMaker 的付费方式是按使用量付费,您只需支付您使用的资源和服务,这使得使用 Amazon SageMaker 非常灵活和经济。

总之,Amazon SageMaker 为您提供了一个全面的、高度托管的机器学习平台,可以使用大规模分布式计算集群,使得我们的模型训练速度更快,能够应对大规模数据和复杂模型训练,对于那些想要利用机器学习技术但不想花费大量时间和资源来构建自己的环境的用户来说,是一个非常有价值的工具。而且 SageMaker 提供了自动模型调优工具,根据我们提供的数据和模型类型,自动找到最佳的超参数组合,从而提高模型的准确率,使得机器学习建模变得更加简单和高效。

SageMaker 的强大不仅来自于亚马逊云科技多年积累的技术,也源于这家公司与众多使用者、合作伙伴共同建立起的生态。通过云上探索实验室,开发者可以学习实践云上技术,同时将自己的技术心得分享给其他开发者小伙伴。一同创造分享,互助启发,玩转云上技术。云上探索实验室不仅是体验的空间,更是分享的平台!

欢迎大家一起参与云上探索实验室,用技术实验、产品体验、案例应用等方式,亲身感受最新、最热门的亚马逊云科技开发者工具与服务。发挥您的想象和创造,以文章、视频、代码 Demo 等形式分享见解。

让我们一起分享,帮助更多开发者进行学习与开发,为技术实践提供更多的可能性:

https://dev.amazoncloud.cn/experience?trk=cndc-detail

2023亚马逊云科技中国峰会即将开启!

👇👇👇点击下方图片即刻注册👇👇👇

a950ddb9deb0951d8d28114695db07aa.jpeg

a5172dd242f58e07ffddb47a2af98129.gif

eeafaacf229769ea0dcdd770665e90b4.gif

听说,点完下面4个按钮

就不会碰到bug了!

9cc828ace8b7216e1b4cc221ea0b9830.gif

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值