PyTorch 常用场景模型大全：从图像分类到强化学习

热爱分享的博士僧

于 2024-10-06 11:29:14 发布

阅读量387

点赞数 16

文章标签： python

本文链接：https://blog.csdn.net/2403_86762465/article/details/142724921

版权

PyTorch 是一个开源的深度学习框架，由 Facebook 的人工智能研究团队开发。它以动态计算图、易于使用的 API 和强大的社区支持而闻名。PyTorch 适用于各种机器学习任务，从图像分类到自然语言处理，再到强化学习等。本文将详细介绍 PyTorch 在不同应用场景中的常用模型，并提供具体的示例。

主要应用场景及常用模型

图像分类

模型:
- ResNet (Residual Networks): 通过残差连接解决深层网络训练困难的问题。
- VGG (Visual Geometry Group): 使用多个小卷积核堆叠来构建深层次的网络。
- Inception (GoogLeNet): 通过 Inception 模块来提高网络的效率和性能。

示例:

python

深色版本

import torch
import torchvision.models as models

# 加载预训练的 ResNet-50 模型
model = models.resnet50(pretrained=True)
model.eval()

# 准备输入数据
from PIL import Image
from torchvision import transforms
input_image = Image.open("path_to_image.jpg")
preprocess = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
input_tensor = preprocess(input_image)
input_batch = input_tensor.unsqueeze(0)  # 创建一个 mini-batch 作为输入

# 进行推理
with torch.no_grad():
    output = model(input_batch)

# 获取预测结果
_, predicted_idx = torch.max(output, 1)
print(predicted_idx.item())

目标检测

模型:
- Faster R-CNN (Region-based Convolutional Neural Networks): 结合区域提议网络（RPN）和 Fast R-CNN 进行高效的目标检测。
- YOLO (You Only Look Once): 实时目标检测模型，单个神经网络直接预测边界框和类别概率。
- SSD (Single Shot MultiBox Detector): 单次多盒检测器，速度快且准确。

示例:

python

深色版本

import torch
import torchvision
from torchvision.models.detection.faster_rcnn import FastRCNNPredictor

# 加载预训练的 Faster R-CNN 模型
model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained=True)
num_classes = 2  # 1 类背景 + 1 类物体
in_features = model.roi_heads.box_predictor.cls_score.in_features
model.roi_heads.box_predictor = FastRCNNPredictor(in_features, num_classes)

# 设置为评估模式
model.eval()

# 准备输入数据
from PIL import Image
from torchvision import transforms
image = Image.open("path_to_image.jpg")
transform = transforms.Compose([transforms.ToTensor()])
image_tensor = transform(image).unsqueeze(0)

# 进行推理
with torch.no_grad():
    predictions = model(image_tensor)

# 处理预测结果
boxes = predictions[0]['boxes']
scores = predictions[0]['scores']
labels = predictions[0]['labels']
for box, score, label in zip(boxes, scores, labels):
    if score > 0.5:
        print(f"Label: {label}, Score: {score:.2f}, Box: {box}")

语义分割

模型:
- U-Net: 用于医学图像分割的经典模型，采用编码器-解码器结构。
- DeepLab: 通过空洞卷积和条件随机场（CRF）来提高分割精度。

示例:

python

深色版本

import torch
import torchvision.models.segmentation as segmentation

# 加载预训练的 DeepLabv3 模型
model = segmentation.deeplabv3_resnet101(pretrained=True)
model.eval()

# 准备输入数据
from PIL import Image
from torchvision import transforms
image = Image.open("path_to_image.jpg")
preprocess = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
input_tensor = preprocess(image).unsqueeze(0)

# 进行推理
with torch.no_grad():
    output = model(input_tensor)['out'][0]
output_predictions = output.argmax(0)

# 显示分割结果
palette = torch.tensor([2 ** 25 - 1, 2 ** 15 - 1, 2 ** 21 - 1])
colors = torch.as_tensor([i for i in range(21)])[:, None] * palette
colors = (colors % 255).numpy().astype("uint8")
r = Image.fromarray(output_predictions.byte().cpu().numpy()).resize(image.size)
r.putpalette(colors)
r.show()

自然语言处理 (NLP)

模型:
- BERT (Bidirectional Encoder Representations from Transformers): 预训练的双向 Transformer 模型，用于多种 NLP 任务。
- GPT (Generative Pre-trained Transformer): 生成式预训练 Transformer 模型，用于文本生成。
- Transformer: 基于自注意力机制的序列到序列模型。

示例:

python

深色版本

from transformers import BertTokenizer, BertForSequenceClassification
import torch

# 加载预训练的 BERT 模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)
model.eval()

# 准备输入数据
text = "This is an example sentence."
inputs = tokenizer(text, return_tensors='pt')

# 进行推理
with torch.no_grad():
    outputs = model(**inputs)

# 获取预测结果
logits = outputs.logits
probabilities = torch.softmax(logits, dim=-1)
predicted_class = torch.argmax(probabilities, dim=-1)
print(f"Predicted class: {predicted_class.item()}")

强化学习

模型:
- DQN (Deep Q-Network): 用于解决离散动作空间的强化学习问题。
- A3C (Asynchronous Advantage Actor-Critic): 异步优势行动者-评论家算法，适用于连续动作空间。
- PPO (Proximal Policy Optimization): 一种策略梯度方法，用于稳定和高效的强化学习。

示例:

python

深色版本

import gym
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

# 定义 DQN 网络
class DQN(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(input_dim, 128)
        self.fc2 = nn.Linear(128, 128)
        self.fc3 = nn.Linear(128, output_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        return self.fc3(x)

# 初始化环境和网络
env = gym.make('CartPole-v1')
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n
q_network = DQN(state_dim, action_dim)
target_network = DQN(state_dim, action_dim)
target_network.load_state_dict(q_network.state_dict())
optimizer = optim.Adam(q_network.parameters(), lr=0.001)

# 训练循环
for episode in range(1000):
    state = env.reset()
    done = False
    while not done:
        state_tensor = torch.FloatTensor(state).unsqueeze(0)
        q_values = q_network(state_tensor)
        action = q_values.argmax(dim=1).item()
        next_state, reward, done, _ = env.step(action)
        next_state_tensor = torch.FloatTensor(next_state).unsqueeze(0)
        target_q_values = target_network(next_state_tensor)
        max_target_q_value = target_q_values.max(dim=1)[0].detach()
        target = reward + 0.99 * max_target_q_value * (1 - done)
        loss = F.mse_loss(q_values, target)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        state = next_state
    if episode % 10 == 0:
        target_network.load_state_dict(q_network.state_dict())