PyTorch的模型创建与nn.Module
模型创建与nn.Module
一、网络模型的创建步骤
机器学习的模型训练步骤一般来讲都要经过读取数据、建立模型、选择损失函数、选择优化器、迭代训练最后得出模型。具体流程如下图:
在模型模块部分,分为两个部分,模型创建和权值初始化,而模型创建又分为构建网络层,例如卷积层、池化层、激活函数层等等,以及拼接网络层;在拼接网络层部分,把构建好的网络层按照一定的顺序拼接成LeNet、AlexNet、ResNet等复杂的神经网络。
模型的组成如下图:
由于网络模型有很多,在此仅以LeNet模型的创建为例,LeNet结构如下图:
可以看出,LeNet 由卷积层Conv1、Conv2、池化层pool1、pool2以及全连接层fc1、fc2、fc3组成。在PyTorch中,需要按照Conv1 --> pool1 --> Conv2 --> pool2 --> fc1 --> fc2 --> fc3顺序拼接起来,组合构建构成LeNet网络。
用代码构建Lenet 如下:
import torch.nn as nn
import torch.nn.functional as torch_nn_functional
class LeNet(nn.Module):
def __init__(self, classes):
super(LeNet, self).__init__()
self.conv1 = nn.Conv2d(3, 6, 5)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, classes)
def forward(self, x):
out = torch_nn_functional.relu(self.conv1(x))
out = torch_nn_functional.max_pool2d(out, 2)
out = torch_nn_functional.relu(self.conv2(out))
out = torch_nn_functional.max_pool2d(out, 2)
out = out.view(out.size(0), -1)
out = torch_nn_functional.relu(self.fc1(out))
out = torch_nn_functional.relu(self.fc2(out))
out = self.fc3(out)
return out
def initialize_weights(self):
for m in self.modules():
if isinstance(m, nn.Conv2d):
nn.init.xavier_normal(m.weight.data)
if m.bias is not None:
m.bias.data.zero_()
elif isinstance(m, nn.BatchNorm2d):
m.weight.data.fill_(1)
m.bias.data.zero_()
elif isinstance(m, nn.Linear):
nn.init.normal_(m.weight.data, 0, 0.1)
m.bias.data.zero_()
可以看出,在初始化LeNet这个类的时候,就会调用__init__函数,而LeNet继承了父类nn.Module这个类,super(LeNet, self).__init__在初始化LeNet的时候,也初始化了父类nn.Module,因为继承了父类nn.Module,所以在执行前向传播LeNet.forward的时候,会先到父类nn.Module,调用父类的forward,然后才会指向LeNet定义的forward,也就是面向对象中多态的内容,父类引用指向子类对象。
二、torch.nn模块
torch.nn模块包含了很多个类
nn.Parameter:它是张量的一个子类,表示可学习的参数,如 权重:weight,偏置:bias;
nn.Module:所有网络层的基类,主要管理网络的属性;
nn.functional:函数的具体实现,如卷积,池化,激活函数等;
nn.init:参数初始化方法。
nn.Module:所有网络的基类,自定义的模型,要继承nn.Module这个类,一个因为像上面,在调用forward的时候,会父类引用指向子类对象,也为了统一模型的数据类型为nn.Module这个类型。
nn.Module有八个重要的属性:
parameters:存储管理nn.Parameter类
modules:存储管理nn.Module类
buffers:存储管理缓冲属性,如BN层中的running_mean
***_hooks:(有5个)存储管理钩子函数。