2024年Python最全【图像分类】实战——使用ResNet实现猫狗分类(pytorch,秋招面试问题

最后

🍅 硬核资料:关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。
🍅 面试题库:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。
🍅 知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

import torch.optim as optim

import torch

import torch.nn as nn

import torch.nn.parallel

import torch.optim

import torch.utils.data

import torch.utils.data.distributed

import torchvision.transforms as transforms

import torchvision.datasets as datasets

import torchvision.models

from effnetv2 import effnetv2_s

from torch.autograd import Variable

设置全局参数

======

设置BatchSize、学习率和epochs,判断是否有cuda环境,如果没有设置为cpu。

设置全局参数

modellr = 1e-4

BATCH_SIZE = 64

EPOCHS = 20

DEVICE = torch.device(‘cuda’ if torch.cuda.is_available() else ‘cpu’)

图像预处理

=====

在做图像与处理时,train数据集的transform和验证集的transform分开做,train的图像处理出了resize和归一化之外,还可以设置图像的增强,比如旋转、随机擦除等一系列的操作,验证集则不需要做图像增强,另外不要盲目的做增强,不合理的增强手段很可能会带来负作用,甚至出现Loss不收敛的情况。

数据预处理

transform = transforms.Compose([

transforms.Resize((224, 224)),

transforms.ToTensor(),

transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])

])

transform_test = transforms.Compose([

transforms.Resize((224, 224)),

transforms.ToTensor(),

transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])

])

读取数据

=====

使用Pytorch的默认方式读取数据。数据的目录如下图:

训练集,取了猫狗大战数据集中,猫狗图像各一万张,剩余的放到验证集中。

读取数据

dataset_train = datasets.ImageFolder(‘data/train’, transform)

print(dataset_train.imgs)

对应文件夹的label

print(dataset_train.class_to_idx)

dataset_test = datasets.ImageFolder(‘data/val’, transform_test)

对应文件夹的label

print(dataset_test.class_to_idx)

导入数据

train_loader = torch.utils.data.DataLoader(dataset_train, batch_size=BATCH_SIZE, shuffle=True)

test_loader = torch.utils.data.DataLoader(dataset_test, batch_size=BATCH_SIZE, shuffle=False)

设置模型

====

使用交叉熵作为loss,模型采用resnet18,建议使用预训练模型,我在调试的过程中,使用预训练模型可以快速得到收敛好的模型,使用预训练模型将pretrained设置为True即可。更改最后一层的全连接,将类别设置为2,然后将模型放到DEVICE。优化器选用Adam。

实例化模型并且移动到GPU

criterion = nn.CrossEntropyLoss()

model = torchvision.models.resnet18(pretrained=False)

num_ftrs = model.fc.in_features

model.fc = nn.Linear(num_ftrs, 2)

model.to(DEVICE)

选择简单暴力的Adam优化器,学习率调低

optimizer = optim.Adam(model.parameters(), lr=modellr)

def adjust_learning_rate(optimizer, epoch):

“”“Sets the learning rate to the initial LR decayed by 10 every 30 epochs”“”

modellrnew = modellr * (0.1 ** (epoch // 50))

print(“lr:”, modellrnew)

for param_group in optimizer.param_groups:

param_group[‘lr’] = modellrnew

设置训练和验证

=======

定义训练过程

def train(model, device, train_loader, optimizer, epoch):

model.train()

sum_loss = 0

total_num = len(train_loader.dataset)

print(total_num, len(train_loader))

for batch_idx, (data, target) in enumerate(train_loader):

data, target = Variable(data).to(device), Variable(target).to(device)

output = model(data)

loss = criterion(output, target)

optimizer.zero_grad()

loss.backward()

optimizer.step()

print_loss = loss.data.item()

sum_loss += print_loss

if (batch_idx + 1) % 50 == 0:

print(‘Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}’.format(

epoch, (batch_idx + 1) * len(data), len(train_loader.dataset),

    • (batch_idx + 1) / len(train_loader), loss.item()))

ave_loss = sum_loss / len(train_loader)

print(‘epoch:{},loss:{}’.format(epoch, ave_loss))

def val(model, device, test_loader):

model.eval()

test_loss = 0

correct = 0

total_num = len(test_loader.dataset)

print(total_num, len(test_loader))

with torch.no_grad():

for data, target in test_loader:

data, target = Variable(data).to(device), Variable(target).to(device)

output = model(data)

loss = criterion(output, target)

_, pred = torch.max(output.data, 1)

correct += torch.sum(pred == target)

print_loss = loss.data.item()

test_loss += print_loss

correct = correct.data.item()

acc = correct / total_num

avgloss = test_loss / len(test_loader)

print(‘\nVal set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n’.format(

avgloss, correct, len(test_loader.dataset), 100 * acc))

训练

for epoch in range(1, EPOCHS + 1):

adjust_learning_rate(optimizer, epoch)

train(model, DEVICE, train_loader, optimizer, epoch)

val(model, DEVICE, test_loader)

torch.save(model, ‘model.pth’)

这是有预训练模型的情况下训练的结果,1个epoch就已经得到很好的结果了。

验证

==

测试集存放的目录如下图:

第一步 定义类别,这个类别的顺序和训练时的类别顺序对应,一定不要改变顺序!!!!我们在训练时,cat类别是0,dog类别是1,所以我定义classes为(cat,dog)。

第二步 定义transforms,transforms和验证集的transforms一样即可,别做数据增强。

第三步 加载model,并将模型放在DEVICE里,

第四步 读取图片并预测图片的类别,在这里注意,读取图片用PIL库的Image。不要用cv2,transforms不支持。

import torch.utils.data.distributed

import torchvision.transforms as transforms

from torch.autograd import Variable

import os

from PIL import Image

classes = (‘cat’, ‘dog’)

transform_test = transforms.Compose([

transforms.Resize((224, 224)),

transforms.ToTensor(),

transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])

])

DEVICE = torch.device(“cuda:0” if torch.cuda.is_available() else “cpu”)

model = torch.load(“model.pth”)

model.eval()

model.to(DEVICE)

path=‘data/test/’

testList=os.listdir(path)

for file in testList:

img=Image.open(path+file)

img=transform_test(img)

img.unsqueeze_(0)

img = Variable(img).to(DEVICE)

out=model(img)

Predict

_, pred = torch.max(out.data, 1)

print(‘Image Name:{},predict:{}’.format(file,classes[pred.data.item()]))

运行结果:

其实在读取数据,也可以巧妙的用datasets.ImageFolder,下面我们就用datasets.ImageFolder实现对图片的预测。改一下test数据集的路径,在test文件夹外面再加一层文件件,取名为dataset,如下图所示:

然后修改读取图片的方式。代码如下:

import torch.utils.data.distributed

import torchvision.transforms as transforms

import torchvision.datasets as datasets

from torch.autograd import Variable

classes = (‘cat’, ‘dog’)

transform_test = transforms.Compose([

transforms.Resize((224, 224)),

transforms.ToTensor(),

transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])

])

DEVICE = torch.device(“cuda:0” if torch.cuda.is_available() else “cpu”)

model = torch.load(“model.pth”)

model.eval()

model.to(DEVICE)

dataset_test = datasets.ImageFolder(‘data/datatest’, transform_test)

print(len(dataset_test))

对应文件夹的label

for index in range(len(dataset_test)):

item = dataset_test[index]

img, label = item

img.unsqueeze_(0)

data = Variable(img).to(DEVICE)

output = model(data)

_, pred = torch.max(output.data, 1)

print(‘Image Name:{},predict:{}’.format(dataset_test.imgs[index][0], classes[pred.data.item()]))

index += 1

完整代码:

=====

train.py

import torch.optim as optim

import torch

import torch.nn as nn

import torch.nn.parallel

import torch.optim

import torch.utils.data

import torch.utils.data.distributed

import torchvision.transforms as transforms

import torchvision.datasets as datasets

import torchvision.models

from effnetv2 import effnetv2_s

from torch.autograd import Variable

设置超参数

BATCH_SIZE = 16

EPOCHS = 10

DEVICE = torch.device(‘cuda’ if torch.cuda.is_available() else ‘cpu’)

数据预处理

transform = transforms.Compose([

transforms.Resize((128, 128)),

transforms.RandomVerticalFlip(),

transforms.RandomCrop(50),

transforms.ColorJitter(brightness=0.5, contrast=0.5, hue=0.5),

transforms.ToTensor(),

transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])

])

transform_test = transforms.Compose([

transforms.Resize((128, 128)),

transforms.ToTensor(),

transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])

])

读取数据

dataset_train = datasets.ImageFolder(‘data/train’, transform)

print(dataset_train.imgs)

对应文件夹的label

print(dataset_train.class_to_idx)

dataset_test = datasets.ImageFolder(‘data/val’, transform_test)

对应文件夹的label

print(dataset_test.class_to_idx)

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python图像识别系统是基于深度学习的一种应用,利用了Python的各种图像处理和机器学习库来训练和识别图像。系统的主要步骤包括数据收集、数据预处理、训练模型和图像分类。 首先,为了训练一个有效的图像分类模型,我们需要大量的图像数据。我们可以通过在网络上收集的图片来获取这些数据,或者使用现有的图像数据集。 接下来,我们需要对数据进行预处理。这包括图像的缩放、裁剪和灰度化等操作,以确保输入数据的一致性和减少噪声。此外,还需要将图像数据转化为适合机器学习模型的数字表示方法,比如将每个像素的RGB值转化为0到1之间的浮点数。 然后,我们使用Python的深度学习库(如TensorFlow、Keras或PyTorch)来构建和训练一个图像分类模型。这可以是一个卷积神经网络(CNN),因为CNN在图像分类任务中表现良好,可以捕捉到图像的局部和全局特征。我们可以使用已有的预训练模型,如VGG16或ResNet等,也可以自己设计一个模型。 训练模型时,我们将数据集分成训练集和验证集,通过反向传播和梯度下降等优化算法来逐步调整模型的权重和偏差,使其更好地在训练集上拟合,并尽量泛化到新的图像。 训练完成后,我们可以使用训练好的模型来对新的图像进行分类。我们将输入图像传递给模型,模型将返回一个概率分布,表示图像属于的概率。我们可以根据概率值来确定图像的分类结果。 总之,Python图像识别系统利用Python强大的图像处理和机器学习库,通过数据收集、预处理、模型训练和图像分类等步骤,可以识别的图像。这是一个有趣且实用的应用,可以用于动物医院、宠物商店等场景中。 ### 回答2: Python 图像识别系统是基于Python编程语言的一种图像识别系统,可以区分的图像。下面将详细介绍该系统的工作原理和实现步骤。 首先,这个系统需要使用机器学习的方法来训练模型。我们可以使用深度学习框架中的卷积神经网络(CNN)来进行图像分类Python提供了许多强大的深度学习库,如Tensorflow和Keras,在这里我们可以用它们来构建CNN模型。 然后,我们需要一组包含的图像数据集来训练模型。这些数据集应该被分成训练集和测试集。我们可以使用一些开源数据集,如Microsoft COCO或ImageNet,或者自己收集并整理数据集。 接下来,我们需要将图像数据进行预处理,以便于输入CNN模型进行训练。预处理可以包括图像的尺寸调整、归一化和像素值转换等步骤。这些处理可以使用Python的图像处理库PIL(Python Imaging Library)来完成。 然后,我们使用Python的深度学习框架搭建并训练CNN模型。我们可以构建一个包含多个卷积层、池化层和全连接层的神经网络模型。通过反向传播算法,该模型可以根据训练数据集来学习图像中的特征,并进行分类。 训练完成后,我们可以用测试数据集来评估模型的准确性和性能。我们可以使用Python的深度学习框架提供的评估函数来进行评估。 最后,我们可以使用训练好的模型来进行图像的识别。我们可以将图像输入到模型中,通过模型的预测函数,得到该图像是还是的概率值。我们可以设置一个阈值,当预测的概率值超过阈值时,就判断该图像为。 总结来说,Python图像识别系统通过基于深度学习的CNN模型进行训练和测试,能够实现图像的准确分类和识别。这个系统的实现需要使用Python的深度学习框架和图像处理库,并配合合适的数据集来完成。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值