用CSwin-Transform提取一张图片的分类响应_a.resize(256, 256, p=1)-CSDN博客

本文链接：https://blog.csdn.net/a_chihiro/article/details/120996275

在这from timm import create_model
import torch
import torch.nn.functional as F
import cswin
from torchvision import transforms
model_ft = create_model('CSWin_144_24322_large_224',pretrained=False, num_classes=21842,)
model_ft.load_state_dict(torch.load('cswin_large_22k_224.pth',map_location='cpu')["state_dict_ema"])
model_ft.eval()
from PIL import Image
test=Image.open('UCF_101_frame/ApplyEyeMakeup/v_ApplyEyeMakeup_g01_c01/00002.jpg').convert('RGB')
#进行transforms定义
trans=transforms.Compose([transforms.Resize((256,256)),
                            #在图片的中间区域进行裁剪
                          transforms.CenterCrop(224),
                          transforms.ToTensor(),
                            #用均值和标准差归一化张量图像
                          transforms.Normalize(mean=[0.485, 0.456, 0.406],std=[0.229, 0.224, 0.225])])
test=trans(test)
test=torch.unsqueeze(test, dim=0)
#1*21842 的tensor
out=model_ft(test)
out=F.softmax(out) #进行softmax操作，将每个属性的值映射到0-1之间
#预测最大属性的对应的概率值 是tensor的一个数值 tensor([0.2983], grad_fn=<MaxBackward0>)
pred_unk = torch.max(out, dim=-1)[0]
#预测最大属性对应的索引值 是tensor的一个数值 tensor([7192])
max=out.data.max(1)[1]
#可使用.cpu().numpy()转化为一个数组