A.完整代码
PyTorch 范例程序如下
from __future__ import print_function
import argparse
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.optim.lr_scheduler import StepLR
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(1, 32, 3, 1)
self.conv2 = nn.Conv2d(32, 64, 3, 1)
self.dropout1 = nn.Dropout(0.25)
self.dropout2 = nn.Dropout(0.5)
self.fc1 = nn.Linear(9216, 128)
self.fc2 = nn.Linear(128, 10)
def forward(self, x):
x = self.conv1(x)
x = F.relu(x)
x = self.conv2(x)
x = F.relu(x)
x = F.max_pool2d(x, 2)
x = self.dropout1(x)
x = torch.flatten(x, 1)
x = self.fc1(x)
x = F.relu(x)
x = self.dropout2(x)
x = self.fc2(x)
output = F.log_softmax(x, dim=1)
return output
def train(args, model, device, train_loader, optimizer, epoch):
model.train()
for batch_idx, (data, target) in enumerate(train_loader):
data, target = data.to(device), target.to(device)
optimizer.zero_grad()
output = model(data)
loss = F.nll_loss(output, target)
loss.backward()
optimizer.step()
if batch_idx % args.log_interval == 0:
print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
epoch, batch_idx * len(data), len(train_loader.dataset),
100. * batch_idx / len(train_loader), loss.item()))
if args.dry_run:
break
def test(model, device, test_loader):
model.eval()
test_loss = 0
correct = 0
with torch.no_grad():
for data, target in test_loader:
data, target = data.to(device), target.to(device)
output = model(data)
test_loss += F.nll_loss(output, target, reduction='sum').item() # sum up batch loss
pred = output.argmax(dim=1, keepdim=True) # get the index of the max log-probability
correct += pred.eq(target.view_as(pred)).sum().item()
test_loss /= len(test_loader.dataset)
print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
test_loss, correct, len(test_loader.dataset),
100. * correct / len(test_loader.dataset)))
def main():
# Training settings
parser = argparse.ArgumentParser(description='PyTorch MNIST Example')
parser.add_argument('--batch-size', type=int, default=64, metavar='N',
help='input batch size for training (default: 64)')
parser.add_argument('--test-batch-size', type=int, default=1000, metavar='N',
help='input batch size for testing (default: 1000)')
parser.add_argument('--epochs', type=int, default=14, metavar='N',
help='number of epochs to train (default: 14)')
parser.add_argument('--lr', type=float, default=1.0, metavar='LR',
help='learning rate (default: 1.0)')
parser.add_argument('--gamma', type=float, default=0.7, metavar='M',
help='Learning rate step gamma (default: 0.7)')
parser.add_argument('--no-cuda', action='store_true', default=False,
help='disables CUDA training')
parser.add_argument('--no-mps', action='store_true', default=False,
help='disables macOS GPU training')
parser.add_argument('--dry-run', action='store_true', default=False,
help='quickly check a single pass')
parser.add_argument('--seed', type=int, default=1, metavar='S',
help='random seed (default: 1)')
parser.add_argument('--log-interval', type=int, default=10, metavar='N',
help='how many batches to wait before logging training status')
parser.add_argument('--save-model', action='store_true', default=False,
help='For Saving the current Model')
args = parser.parse_args()
use_cuda = not args.no_cuda and torch.cuda.is_available()
use_mps = not args.no_mps and torch.backends.mps.is_available()
torch.manual_seed(args.seed)
if use_cuda:
device = torch.device("cuda")
elif use_mps:
device = torch.device("mps")
else:
device = torch.device("cpu")
train_kwargs = {'batch_size': args.batch_size}
test_kwargs = {'batch_size': args.test_batch_size}
if use_cuda:
cuda_kwargs = {'num_workers': 1,
'pin_memory': True,
'shuffle': True}
train_kwargs.update(cuda_kwargs)
test_kwargs.update(cuda_kwargs)
transform=transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.1307,), (0.3081,))
])
dataset1 = datasets.MNIST('../data', train=True, download=True,
transform=transform)
dataset2 = datasets.MNIST('../data', train=False,
transform=transform)
train_loader = torch.utils.data.DataLoader(dataset1,**train_kwargs)
test_loader = torch.utils.data.DataLoader(dataset2, **test_kwargs)
model = Net().to(device)
optimizer = optim.Adadelta(model.parameters(), lr=args.lr)
scheduler = StepLR(optimizer, step_size=1, gamma=args.gamma)
for epoch in range(1, args.epochs + 1):
train(args, model, device, train_loader, optimizer, epoch)
test(model, device, test_loader)
scheduler.step()
if args.save_model:
torch.save(model.state_dict(), "mnist_cnn.pt")
if __name__ == '__main__':
main()
B.模组
确保 Python 2 和 Python 3 的兼容性,使 print 函数的使用更加一致。
from __future__ import print_function
用于处理命令行参数的库。
import argparse
PyTorch 主要庫。
import torch
PyTorch 中的神经网络模块。
import torch.nn as nn
包含各种激活函数和损失函数的库。
import torch.nn.functional as F
包含不同优化器的库。
import torch.optim as optim
包含用于处理图像数据集的工具。
from torchvision import datasets, transforms
用于调整学习率的类别。
from torch.optim.lr_scheduler import StepLR
C. Class
Net 继承 PyTorch 中的神经网络模块。
class Net(nn.Module):
a. 初始化实例
- 两个卷积层 conv1, conv2
nn.Conv2d(输入通道数, 输出通道数, 卷积核的大小, 步长)。 - 两个 dropout 层 dropout1, dropout2
训练过程随机将神经元抑制,防止过拟合。 - 两个全连接层 fc1, fc2
nn.Linear(输入特征数, 输出特征数)。
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(1, 32, 3, 1)
self.conv2 = nn.Conv2d(32, 64, 3, 1)
self.dropout1 = nn.Dropout(0.25)
self.dropout2 = nn.Dropout(0.5)
self.fc1 = nn.Linear(9216, 128)
self.fc2 = nn.Linear(128, 10)
b. forward 方法
此处定义神经网络各层的排列顺序。
def forward(self, x):
x = self.conv1(x)
x = F.relu(x)
x = self.conv2(x)
x = F.relu(x)
x = F.max_pool2d(x, 2)
x = self.dropout1(x)
x = torch.flatten(x, 1)
x = self.fc1(x)
x = F.relu(x)
x = self.dropout2(x)
x = self.fc2(x)
output = F.log_softmax(x, dim=1)
return output
D. Train
定义训练函数 train
与输入变量。
def train(args, model, device, train_loader, optimizer, epoch):
将模型设定为训练模式,以启用 Batch Normalization 和 Dropout。
model.train()
通过 enumerate(train_loader)
进行批次的迭代训练,并将数据移动到指定的设备(CPU 或 GPU 等)。
for batch_idx, (data, target) in enumerate(train_loader):
data, target = data.to(device), target.to(device)
将优化器的梯度归零。
optimizer.zero_grad()
通过模型将数据向前传播。
output = model(data)
以负对数似然损失函数(The negative log likelihood loss)计算损失。
loss = F.nll_loss(output, target)
反向传播计算梯度。
loss.backward()
更新模型参数。
optimizer.step()
输出当前状态。
if batch_idx % args.log_interval == 0:
print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
epoch, batch_idx * len(data), len(train_loader.dataset),
100. * batch_idx / len(train_loader), loss.item()))
if args.dry_run:
break
E. Test
定义测试函数 test
与输入变量。
def test(model, device, test_loader):
将模型设置为测试模式,禁用 Batch Normalization 和 Dropout。
model.eval()
test_loss = 0
correct = 0
以上下文管理器防止测试过程中进行梯度计算。
with torch.no_grad():
迭代测试数据集的每个批次。
for data, target in test_loader:
将数据移动到指定的设备(CPU 或 GPU 等)。
data, target = data.to(device), target.to(device)
计算输出
output = model(data)
累加测试损失。
test_loss += F.nll_loss(output, target, reduction='sum').item() # sum up batch loss
获取最大对数概率的索引。
pred = output.argmax(dim=1, keepdim=True) # get the index of the max log-probability
累加正确预测的数量。
correct += pred.eq(target.view_as(pred)).sum().item()
计算平均损失和准确度,并输出到终端。
test_loss /= len(test_loader.dataset)
打印结果。
print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
test_loss, correct, len(test_loader.dataset),
100. * correct / len(test_loader.dataset)))
F. Main
main
是整个 Python 脚本的入口,用以初始化参数,以及组织训练、测试流程。
def main():
使用 argparse 解析命令行参数,包含训练过程的超参数(Hyperparameters)如批次大小(Batch size)--batch-size
、学习率(Learning rate)--lr
、训练周期数(Epochs)--epochs
。
# Training settings
parser = argparse.ArgumentParser(description='PyTorch MNIST Example')
parser.add_argument('--batch-size', type=int, default=64, metavar='N',
help='input batch size for training (default: 64)')
parser.add_argument('--test-batch-size', type=int, default=1000, metavar='N',
help='input batch size for testing (default: 1000)')
parser.add_argument('--epochs', type=int, default=14, metavar='N',
help='number of epochs to train (default: 14)')
parser.add_argument('--lr', type=float, default=1.0, metavar='LR',
help='learning rate (default: 1.0)')
parser.add_argument('--gamma', type=float, default=0.7, metavar='M',
help='Learning rate step gamma (default: 0.7)')
parser.add_argument('--no-cuda', action='store_true', default=False,
help='disables CUDA training')
parser.add_argument('--no-mps', action='store_true', default=False,
help='disables macOS GPU training')
parser.add_argument('--dry-run', action='store_true', default=False,
help='quickly check a single pass')
parser.add_argument('--seed', type=int, default=1, metavar='S',
help='random seed (default: 1)')
parser.add_argument('--log-interval', type=int, default=10, metavar='N',
help='how many batches to wait before logging training status')
parser.add_argument('--save-model', action='store_true', default=False,
help='For Saving the current Model')
args = parser.parse_args()
设定设备。
use_cuda = not args.no_cuda and torch.cuda.is_available()
use_mps = not args.no_mps and torch.backends.mps.is_available()
设置随机种子,确保训练的可重复性。
torch.manual_seed(args.seed)
根据设定选择设备类型。
if use_cuda:
device = torch.device("cuda")
elif use_mps:
device = torch.device("mps")
else:
device = torch.device("cpu")
准备训练和测试数据,使用 Python 的 Dataloader 将训练以及测试数据转换为可迭代的数据加载器。
train_kwargs = {'batch_size': args.batch_size}
test_kwargs = {'batch_size': args.test_batch_size}
if use_cuda:
cuda_kwargs = {'num_workers': 1,
'pin_memory': True,
'shuffle': True}
train_kwargs.update(cuda_kwargs)
test_kwargs.update(cuda_kwargs)
transform=transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.1307,), (0.3081,))
])
dataset1 = datasets.MNIST('../data', train=True, download=True,
transform=transform)
dataset2 = datasets.MNIST('../data', train=False,
transform=transform)
train_loader = torch.utils.data.DataLoader(dataset1,**train_kwargs)
test_loader = torch.utils.data.DataLoader(dataset2, **test_kwargs)
创建神经网络模型 Net 将其移动到指定的设备,采用优化器 Adadelta 并初始化。
model = Net().to(device)
optimizer = optim.Adadelta(model.parameters(), lr=args.lr)
设置学习率调整策略,此处采用 StepLR,也就是每个 epoch 调整一次学习率。
scheduler = StepLR(optimizer, step_size=1, gamma=args.gamma)
执行训练以及测试。
for epoch in range(1, args.epochs + 1):
train(args, model, device, train_loader, optimizer, epoch)
test(model, device, test_loader)
scheduler.step()
根据命令行参数决定是否保存训练好的模型。
if args.save_model:
torch.save(model.state_dict(), "mnist_cnn.pt")