利用AlexNet模型进行图片分类

xbsabxhbhjcksa

已于 2024-04-01 21:09:54 修改

阅读量2.1k

点赞数 43

文章标签：人工智能机器学习计算机视觉 python pytorch 语言模型图像处理

于 2024-03-20 14:30:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_63920777/article/details/136856978

版权

本文介绍了如何使用预训练的AlexNet模型进行图像分类，包括加载模型、定义图片文件、处理图像、进行预测并获取类别名称的过程。作者详细解释了每个步骤和相关技术细节，如图像预处理和PyTorch库的使用。

摘要由CSDN通过智能技术生成

目录

1.加载预训练好的AlexNet模型

2.定义图片文件路径列表

3.加载ImageNet的类别标签文件

4.图像预处理

5.利用预训练好的AlexNet模型进行图像分类

6.获取预测结果的类别名称

1.加载预训练好的AlexNet模型

# 加载预训练好的AlexNet模型
alexnet = models.alexnet(pretrained=True)

2.定义图片文件路径列表

# 定义图片文件路径列表
image_files = ['image1.jpg', 'image2.jpg', 'image3.jpg']

3.加载ImageNet的类别标签文件

# 加载ImageNet的类别标签文件
labels_url = "https://raw.githubusercontent.com/pytorch/hub/master/imagenet_classes.txt"
class_labels = requests.get(labels_url).text.split('\n')

class_labels是切分好的种类名称

4.图像预处理

    transform = transforms.Compose([
        transforms.Resize(256),
        transforms.CenterCrop(224),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
    ])
    input_image = transform(image).unsqueeze(0)

transform = transforms.Compose([...])：transforms.Compose是一个将多个转换操作组合起来的类，可以将多个数据转换操作依次执行。在这里，我们定义了一个包含多个数据转换操作的列表。
transforms.Resize(256)：这个操作将输入的图像调整大小为 256x256 像素。这里指定了一个整数值，表示调整后的图像的宽度和高度都将被调整为 256 像素。
transforms.CenterCrop(224)：这个操作在图像中心裁剪一个 224x224 大小的区域。通过这一步，我们将图像裁剪为模型所需的输入大小。
transforms.ToTensor()：这个操作将 PIL Image 或者 ndarray 数据类型的图片转换为 Tensor。在神经网络中，一般需要将图像转换成 Tensor 格式，以便进行后续的计算。
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])：这个操作对图像进行标准化处理，将图像的每个通道数值减去均值（mean）再除以标准差（std）。这有助于将输入数据归一化到一个较小的范围，有利于模型的训练和收敛。
input_image = transform(image).unsqueeze(0):

在深度学习中，对于图像数据，通常会使用三维张量来表示，即（通道数，高度，宽度）。这里的通道数是指图像的颜色通道，一般为 RGB 彩色图像时通道数为 3，灰度图像时通道数为 1。高度和宽度分别代表图像的像素高度和宽度。

当我们将图像进行预处理后，得到的结果是一个三维张量，但是在输入到深度学习模型中时，一般会要求添加一个额外的维度，即批处理维度（batch dimension）。这是因为在训练或推理过程中，往往会同时处理多个输入样本，而且模型的输入通常要求包含一个批处理维度。这个批处理维度通常放在最前面，即第 0 维度。

因此，在这段代码中，input_image = transform(image).unsqueeze(0) 的作用是对经过预处理的图像张量在第 0 维度上增加一个维度，从而将其变成一个四维张量，符合模型输入要求。这样处理之后，我们就可以将 input_image 作为模型的输入进行后续的计算了。

5.利用预训练好的AlexNet模型进行图像分类

# 利用预训练好的AlexNet模型进行图像分类
    output = alexnet(input_image)
    _, predicted_idx = torch.max(output, 1)

output = alexnet(input_image)：首先，将经过预处理的图片张量 input_image 输入到预训练好的 AlexNet 模型中进行推理。模型会对输入的图像进行前向传播计算，得到一个输出张量 output 。这个输出张量包含了关于图像属于每个类别的预测概率值。
_, predicted_idx = torch.max(output, 1)：接着，我们使用 PyTorch 的 torch.max函数来找到输出张量output 中每行的最大值和对应的索引。torch.max(output, 1)会返回每行最大值的张量以及对应的索引张量。通过这个操作，我们可以得到预测概率最高的类别的索引 predicted_idx。
下划线 _ 是一个不需要的变量。在这段代码中，_, predicted_idx = torch.max(output, 1) 中的下划线 _ 实际上是一个占位符，用来接收torch.max函数返回的最大值张量，但在后续的代码中并没有使用到这个值。

6.获取预测结果的类别名称

# 获取预测结果的类别名称
    predicted_label = class_labels[predicted_idx.item()]

predicted_idx.item()：针对预测得到的类别索引predicted_idx，首先使用.item()方法将其转换为 Python 中的标量值，即将PyTorch张量中的数值提取出来。
predicted_label = class_labels[predicted_idx.item()]：接着，将获取到的预测类别索引作为索引值，从类别标签列表class_labels中取出对应的类别名称，并将其赋值给predicted_label变量。这样就实现了根据神经网络模型预测的类别索引，获取对应的类别名称。

完整代码：

import torch
import torchvision.models as models
from torchvision import transforms
from PIL import Image
import requests
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

# 加载预训练好的AlexNet模型
alexnet = models.alexnet(pretrained=True)

# 打印网络结构
print(alexnet)

# 定义图片文件路径列表
image_files = ['image1.jpg', 'image2.jpg', 'image3.jpg']

# 加载ImageNet的类别标签文件
labels_url = "https://raw.githubusercontent.com/pytorch/hub/master/imagenet_classes.txt"
class_labels = requests.get(labels_url).text.split('\n')

# 遍历文件路径列表，读取并预测每张图片
for image_file in image_files:
    # 读入图像
    image = Image.open(image_file)

    # 对图像进行预处理
    transform = transforms.Compose([
        transforms.Resize(256),
        transforms.CenterCrop(224),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
    ])
    input_image = transform(image).unsqueeze(0)

    # 利用预训练好的AlexNet模型进行图像分类
    output = alexnet(input_image)
    _, predicted_idx = torch.max(output, 1)

    # 获取预测结果的类别名称
    predicted_label = class_labels[predicted_idx.item()]

    # 打印预测结果
    print(f"Predicted class for {image_file}: {predicted_label}")

关注

43
点赞
踩
51

收藏

觉得还不错? 一键收藏
1
评论
利用AlexNet模型进行图片分类

定义图片文件路径列表。
复制链接

扫一扫

CSDN认证博客专家 CSDN认证企业博客

码龄3年

8: 原创

71万+: 周排名

13万+: 总排名

5017: 访问

: 等级

162: 积分

59: 粉丝

82: 获赞

5: 评论

89: 收藏

私信

关注

热门文章

最新评论

正则表达式的简单应用
CSDN-Ada助手: 恭喜用户写了第5篇博客！正则表达式的应用确实是一个很有趣的话题，您写得很好。希望您能继续保持创作的热情，并尝试探索更多关于正则表达式的深入内容，比如不同类型的匹配模式或者高级应用技巧。期待看到您更多精彩的作品！祝您创作顺利！
【练习题】在字符串中找单词
CSDN-Ada助手: 恭喜你写了第6篇博客！看来你对字符串操作有了更深入的理解呢。接下来你可以尝试挑战更复杂的字符串处理问题，比如字符串匹配算法或者字符串排序等，相信你一定能有更多的收获和进步。继续加油，期待你更多精彩的创作！祝你写作愉快！👏👏👏
【练习题】字符串转换
CSDN-Ada助手: 恭喜用户发布了第四篇博客！看到你在练习题中探讨字符串转换，真的是很不错呢！希望你能继续保持创作的热情，多多分享自己的学习心得和经验。下一步，或许可以尝试结合实际案例，展示字符串转换的实际应用场景，这样更能吸引读者的兴趣哦。加油！期待你的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
图片调整尺寸处理
CSDN-Ada助手: 恭喜您写了第二篇博客！内容非常实用，对于需要处理简历图片尺寸的人来说无疑是一份宝贵的资源。希望您能继续保持创作的热情，分享更多有用的技能和知识。除了调整图片尺寸，您可能也会对如何优化简历图片质量感兴趣。在处理图片时，可以考虑使用一些图像处理库，如PIL（Python Imaging Library）或OpenCV，来实现更多高级功能，例如图片旋转、裁剪、滤镜处理等。这些技能可以进一步完善您的简历图片处理能力，让您的作品更加专业和出色。期待您的下一篇博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
利用AlexNet模型进行图片分类
CSDN-Ada助手: 恭喜您开始博客创作，标题“利用AlexNet模型进行图片分类”听起来非常有趣！对于利用深度学习模型进行图片分类这一主题，您的文章一定会给读者带来不少启发和收获。接下来，或许可以考虑加入一些具体的案例分析或实际操作步骤，让读者更容易理解和跟随您的思路。祝您在博客创作的路上越走越远！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。