一、概念
在网络中加入一个或多个隐藏层来克服线性模型的限制, 使其能处理更普遍的函数关系类型。 要做到这一点,最简单的方法是将许多全连接层堆叠在一起。 每一层都输出到上面的层,直到生成最后的输出。 我们可以把前L-1层看作表示,把最后一层看作线性预测器。 这种架构通常称为多层感知机,如下图所示
二、激活函数
为什么要添加激活函数?
在多层感知机中添加激活函数的目的是引入非线性因素,使得神经网络能够学习或者表达更加复杂的函数关系,如果没有激活函数那么神经网络中的每一层只能进行线性变换,而如果添加激活函数,通过不同的神经网络参数对激活函数进行组合和变换那么便可以表达出复杂且更有表达力的模型。
机器学习的过程为:先假设出一个函数f,然后通过训练样本学习出函数f的参数
如果要表达下图函数f
如果只是通过不含激活层的神经网络,则神经网络只是线性的。而如果神经网络只有线性,那么不论有多少隐藏层,有多少神经元,最终还是线性的,只能进行简单的线性函数叠加,无法准确的表达f。如图
如果加入了激活函数则可以使得网络变为非线性的,此时便可以表达更加复杂的f
三.多层感知机的实现
代码如下:
导入相关的库
import torch
from torch import nn
import d2l
构建神经网络,并且初始化权重参数。其中输出图形由784个灰度像素值组成,图像分为10个类别。故对图形进行展平之后为784列的列向量,通过线性层和激活层,最后输出层输出为10维列向量。
net = nn.Sequential(nn.Flatten(),
nn.Linear(784,256),
nn.ReLU(),
nn.Linear(256,10)
)
def init_weights(m):
if type(m)==nn.Linear:
nn.init.normal_(m.weight,std=0.01)
net.apply(init_weights)
设定学习率,训练轮数,损失函数。
batch_size,lr,num_epochs = 256,0.1,10
loss = nn.CrossEntropyLoss(reduction='none')
trainer = torch.optim.SGD(net.parameters(),lr=lr)
train_iter,test_iter = d2l.load_data_fashion_mnist(batch_size=batch_size)
d2l.train_ch3(net,train_iter,test_iter,loss,num_epochs,trainer)
激活函数为ReLu函数时图像
激活函数为sigmoid函数时图像
tanh激活函数图像如下
总体而言三者在测试集上的准确率相差不大,故在此例中使用任意一个激活函数都可