课程Youtube:Deep Learning UC Berkeley STAT-157
课本:动手学深度学习
代码:d2l-ai
3.8 多层感知机
我们已经介绍了包括线性回归和softmax回归在内的单层神经网络。然而深度学习主要关注多层模型。在本节中,我们将以多层感知机(multilayer perceptron,MLP)为例,介绍多层神经网络的概念。
3.8.1. 隐藏层
多层感知机在单层神经网络的基础上引入了一到多个隐藏层(hidden layer)。隐藏层位于输入层和输出层之间。图3.3展示了一个多层感知机的神经网络图。
在图3.3所示的多层感知机中,输入和输出个数分别为4和3,中间的隐藏层中包含了5个隐藏单元(hidden unit)。由于输入层不涉及计算,图3.3中的多层感知机的层数为2。由图3.3可见,隐藏层中的神经元和输入层中各个输入完全连接,输出层中的神经元和隐藏层中的各个神经元也完全连接。因此,多层感知机中的隐藏层和输出层都是全连接层。
具体来说,给定一个小批量样本,其批量大小为n,输入个数为d。假设多层感知机只有一个隐藏层,其中隐藏单元个数为h。记隐藏层的输出(也称为隐藏层变量或隐藏变量)为H,有。因为隐藏层和输出层均是全连接层,可以设隐藏层的权重参数和偏差参数分别为和 ,输出层的权重和偏差参数分别为和。
我们先来看一种含单隐藏层的多层感知机的设计。其输出的计算为
也就是将隐藏层的输出直接作为输出层的输入。如果将以上两个式子联立起来,可以得到
从联立后的式子可以看出,虽然神经网络引入了隐藏层,却依然等价于一个单层神经网络:其中输出层权重参数为,偏差参数为。不难发现,即便再添加更多的隐藏层,以上设计依然只能与仅含输出层的单层神经网络等价。
3.8.2. 激活函数
上述问题的根源在于全连接层只是对数据做仿射变换(affine transformation),而多个仿射变换的叠加仍然是一个仿射变换。解决问题的一个方法是引入非线性变换,例如对隐藏变量使用按元素运算的非线性函数进行变换,然后再作为下一个全连接层的输入。这个非线性函数被称为激活函数(activation function)。下面我们介绍几个常用的激活函数。
3.8.2.1. ReLU函数
ReLU(rectified linear unit)函数提供了一个很简单的非线性变换。给定元素x,该函数定义为
可以看出,ReLU函数只保留正数元素,并将负数元素清零。为了直观地观察这一非线性变换,我们先定义一个绘图函数xyplot
。
In [1]:
%matplotlib inline
import d2lzh as d2l
from mxnet import autograd, nd
def xyplot(x_vals, y_vals, name):
d2l.set_figsize(figsize=(5, 2.5))
d2l.plt.plot(x_vals.asnumpy(), y_vals.asnumpy())
d2l.plt.xlabel('x')
d2l.plt.ylabel(name + '(x)')
我们接下来通过NDArray
提供的relu
函数来绘制ReLU函数。可以看到,该激活函数是一个两段线性函数。
In [2]:
x = nd.arange(-8.0, 8.0, 0.1)
x.attach_grad()
with autograd.record():
y = x.relu()
xyplot(x, y, 'relu')
显然,当输入为负数时,ReLU函数的导数为0;当输入为正数时,ReLU函数的导数为1。尽管输入为0时ReLU函数不可导,但是我们可以取此处的导数为0。下面绘制ReLU函数的导数。
In [3]:
y.backward()
xyplot(x, x.grad, 'grad of relu')
3.8.2.2. sigmoid函数
sigmoid函数可以将元素的值变换到0和1之间:
sigmoid函数在早期的神经网络中较为普遍,但它目前逐渐被更简单的ReLU函数取代。在后面“循环神经网络”一章中我们会介绍如何利用它值域在0到1之间这一特性来控制信息在神经网络中的流动。下面绘制了sigmoid函数。当输入接近0时,sigmoid函数接近线性变换。
In [4]:
with autograd.record():
y = x.sigmoid()
xyplot(x, y, 'sigmoid')
依据链式法则,sigmoid函数的导数
下面绘制了sigmoid函数的导数。当输入为0时,sigmoid函数的导数达到最大值0.25;当输入越偏离0时,sigmoid函数的导数越接近0。
In [5]:
y.backward()
xyplot(x, x.grad, 'grad of sigmoid')
3.8.2.3. tanh函数
tanh(双曲正切)函数可以将元素的值变换到-1和1之间:
我们接着绘制tanh函数。当输入接近0时,tanh函数接近线性变换。虽然该函数的形状和sigmoid函数的形状很像,但tanh函数在坐标系的原点上对称。
In [6]:
with autograd.record():
y = x.tanh()
xyplot(x, y, 'tanh')
依据链式法则,tanh函数的导数
下面绘制了tanh函数的导数。当输入为0时,tanh函数的导数达到最大值1;当输入越偏离0时,tanh函数的导数越接近0。
In [7]:
y.backward()
xyplot(x, x.grad, 'grad of tanh')
3.8.3. 多层感知机
多层感知机就是含有至少一个隐藏层的由全连接层组成的神经网络,且每个隐藏层的输出通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。以单隐藏层为例并沿用本节之前定义的符号,多层感知机按以下方式计算输出:
其中表示激活函数。在分类问题中,我们可以对输出O做softmax运算,并使用softmax回归中的交叉熵损失函数。 在回归问题中,我们将输出层的输出个数设为1,并将输出OO直接提供给线性回归中使用的平方损失函数。
3.8.4. 小结
- 多层感知机在输出层与输入层之间加入了一个或多个全连接隐藏层,并通过激活函数对隐藏层输出进行变换。
- 常用的激活函数包括ReLU函数、sigmoid函数和tanh函数。
3.8.5. 练习
- 应用链式法则,推导出sigmoid函数和tanh函数的导数的数学表达式。
- 查阅资料,了解其他的激活函数。
3.9. 多层感知机的从零开始实现¶
我们已经从上一节里了解了多层感知机的原理。下面,我们一起来动手实现一个多层感知机。首先导入实现所需的包或模块。
In [1]:
%matplotlib inline
import d2lzh as d2l
from mxnet import nd
from mxnet.gluon import loss as gloss
3.9.1. 获取和读取数据
这里继续使用Fashion-MNIST数据集。我们将使用多层感知机对图像进行分类。
In [2]:
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
3.9.2. 定义模型参数
我们在“softmax回归的从零开始实现”一节里已经介绍了,Fashion-MNIST数据集中图像形状为28×28,类别数为10。本节中我们依然使用长度为28×28=784的向量表示每一张图像。因此,输入个数为784,输出个数为10。实验中,我们设超参数隐藏单元个数为256。
In [3]:
num_inputs, num_outputs, num_hiddens = 784, 10, 256
W1 = nd.random.normal(scale=0.01, shape=(num_inputs, num_hiddens))
b1 = nd.zeros(num_hiddens)
W2 = nd.random.normal(scale=0.01, shape=(num_hiddens, num_outputs))
b2 = nd.zeros(num_outputs)
params = [W1, b1, W2, b2]
for param in params:
param.attach_grad()
3.9.3. 定义激活函数
这里我们使用基础的maximum
函数来实现ReLU,而非直接调用relu
函数。
In [4]:
def relu(X):
return nd.maximum(X, 0)
3.9.4. 定义模型
同softmax回归一样,我们通过reshape
函数将每张原始图像改成长度为num_inputs
的向量。然后我们实现上一节中多层感知机的计算表达式。
In [5]:
def net(X):
X = X.reshape((-1, num_inputs))
H = relu(nd.dot(X, W1) + b1)
return nd.dot(H, W2) + b2
3.9.5. 定义损失函数
为了得到更好的数值稳定性,我们直接使用Gluon提供的包括softmax运算和交叉熵损失计算的函数。
In [6]:
loss = gloss.SoftmaxCrossEntropyLoss()
3.9.6. 训练模型
训练多层感知机的步骤和“softmax回归的从零开始实现”一节中训练softmax回归的步骤没什么区别。我们直接调用d2lzh
包中的train_ch3
函数,它的实现已经在“softmax回归的从零开始实现”一节里介绍过。我们在这里设超参数迭代周期数为5,学习率为0.5。
In [7]:
num_epochs, lr = 5, 0.5
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size,
params, lr)
epoch 1, loss 0.8371, train acc 0.688, test acc 0.822
epoch 2, loss 0.4984, train acc 0.816, test acc 0.829
epoch 3, loss 0.4326, train acc 0.839, test acc 0.858
epoch 4, loss 0.3987, train acc 0.853, test acc 0.861
epoch 5, loss 0.3759, train acc 0.863, test acc 0.872
3.9.7. 小结
- 可以通过手动定义模型及其参数来实现简单的多层感知机。
- 当多层感知机的层数较多时,本节的实现方法会显得较烦琐,例如在定义模型参数的时候。
3.9.8. 练习
- 改变超参数
num_hiddens
的值,看看对实验结果有什么影响。 - 试着加入一个新的隐藏层,看看对实验结果有什么影响
3.10. 多层感知机的简洁实现
下面我们使用Gluon来实现上一节中的多层感知机。首先导入所需的包或模块。
In [1]:
import d2lzh as d2l
from mxnet import gluon, init
from mxnet.gluon import loss as gloss, nn
3.10.1. 定义模型
和softmax回归唯一的不同在于,我们多加了一个全连接层作为隐藏层。它的隐藏单元个数为256,并使用ReLU函数作为激活函数。
In [2]:
net = nn.Sequential()
net.add(nn.Dense(256, activation='relu'),
nn.Dense(10))
net.initialize(init.Normal(sigma=0.01))
3.10.2. 读取数据并训练模型
我们使用与“softmax回归的简洁实现”一节中训练softmax回归几乎相同的步骤来读取数据并训练模型。
In [3]:
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
loss = gloss.SoftmaxCrossEntropyLoss()
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.5})
num_epochs = 5
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None,
None, trainer)
epoch 1, loss 0.7953, train acc 0.704, test acc 0.773
epoch 2, loss 0.4901, train acc 0.818, test acc 0.850
epoch 3, loss 0.4313, train acc 0.840, test acc 0.852
epoch 4, loss 0.3976, train acc 0.853, test acc 0.864
epoch 5, loss 0.3707, train acc 0.863, test acc 0.860
3.10.3. 小结
- 通过Gluon可以更简洁地实现多层感知机。
3.10.4. 练习
- 尝试多加入几个隐藏层,对比上一节中从零开始的实现。
- 使用其他的激活函数,看看对结果的影响。