图像分类是什么？AlexNet手写数字图像识别

最新推荐文章于 2023-05-11 15:02:29 发布

传智教育

最新推荐文章于 2023-05-11 15:02:29 发布

阅读量258

点赞数

文章标签：分类深度学习

本文链接：https://blog.csdn.net/cz_00001/article/details/128646175

版权

图像分类是分析输入图像并返回类别标签的任务。AlexNet是2012年ImageNet挑战赛的胜出模型，证明学习到的特征优于手工设计。本文以AlexNet为例，介绍如何使用该模型进行手写数字图像的识别，涉及数据调整和模型应用。

摘要由CSDN通过智能技术生成

图像分类

图像分类实质上就是从给定的类别集合中为图像分配对应标签的任务。也就是说我们的任务是分析一个输入图像并返回一个该图像类别的标签。

假定类别集为categories = {dog, cat, panda}，之后我们提供一张图片给分类模型，如下图所示：
图像分类

分类模型给图像分配多个标签，每个标签的概率值不同，如dog:95%，cat:4%，panda:1%，根据概率值的大小将该图片分类为dog，那就完成了图像分类的任务。下面利用AlexNet完成图像分类过程的讲解。

AlexNet完手写数字势识别

2012年，AlexNet横空出世，该模型的名字源于论文第一作者的姓名Alex Krizhevsky 。AlexNet使用了8层卷积神经网络，以很大的优势赢得了ImageNet 2012图像识别挑战赛。它首次证明了学习到的特征可以超越手工设计的特征，从而一举打破计算机视觉研究的方向。

AlexNet使用ImageNet数据集进行训练，但因为ImageNet数据集较大训练时间较长，我们仍用前面的MNIST数据集来演示AlexNet。读取数据的时将图像高和宽扩大到AlexNet使用的图像高和宽227。这个通过tf.image.resize_with_pad来实现。

数据读取

首先获取数据,并进行维度调整：

import numpy as np
# 获取手写数字数据集
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
# 训练集数据维度的调整：N H W C
trai

关注