前言
无论是做分类还是做回归,都主要包括数据、模型、损失函数和优化器四个部分。数据部分在上一篇笔记中已经基本完结,从这篇笔记开始,将学习深度学习模型。全连接网络MLP是最简单、最好理解的神经网络,于是便从这里开始。Pytorch中已经封装好了组成全连接神经网络的主要部件 ,即线性层(全连接层)、非线性激活层与dropout层等,如果模型只是单纯的线性层叠加,最后模型也是线性的,等价于只有一个线性层(把所有权值矩阵先结合相乘,最后只剩一个权值矩阵),而非线性激活层的加入才使得深度有了意义。本笔记的知识框架主要来源于深度之眼,并依此作了内容的丰富拓展,拓展内容主要源自对torch文档的翻译,和自己的粗浅理解,所用数据来源于网络。发现有人在其他平台照搬笔者笔记,不仅不注明出处,有甚者更将其作为收费文章,因此从这篇笔记开始,笔者将在文中任意位置插入识别标志。
Pytorch线性层简单使用:深度之眼pytorch打卡(四)| 台大李宏毅机器学习 2020作业(一):线性回归,实现多因素作用下的PM2.5预测(Pytorch版手写+nn.Linear())
全连接神经网络
原先的感知机是一个智能机器,现在的感知机一般是指如下所示的一种模型。它以若干特征作为输入,将每个输入特征与其对应的权值相乘后求和,这非常像一个神经元通过突触加权收集信息。由于线性运算即加法和数乘,这里的操作正是线性运算,所以这个操作被Pytorch
封装成为线性层Linear
。线性运算常常可以用矩阵乘法高效完成,如式(1)。
单纯的线性模型连XOR
这样的问题都解决不了,更不用说更复杂的分类。在线性层输出的后面加上一个非线性激活函数可以解决XOR
问题,并且使得加深网络变得有意义。Pytorch将这个操作封装成了非线性激活层,一个线性层,加一个非线性激活层才算是构成了全连接神经网络的基本单元,此后称该单元为神经元或者节点,如图1所示。权值w和偏置b都是在输入数据中学出来的,因此该模型是自适应模型。
输入层一般不算入层,故如图2所示的是三层全连接网络,包括两个隐藏层和一个输出层。图中的每层包含有若干上述的神经元。所谓全连接,就是某一层的每一个神经元都与前一层的所有神经元相连,并且每一个连接都独占一个权值,模型表达式与式(1)类似,只是表达式是多重的复合函数。容易知道,如果某一层的神经元数为M
,而其上一层神经元数为N
,则该层的参数有M*N+M
个。
理论上而言,越深的网络有越好的问题拟合能力。但全连接网络无法做太深,因为每个连接都独用一个权值,太深了参数会非常多,容易过拟合,用Drapout
可以缓解,用验证集可以监控。输入也不能太多,所以全连接网络输入常常是手工挑选好的或者是卷积神经网络输出的若干个特征,以图像全像素作为输入就常常行不通。以一幅100*100
的灰度图像为例,输入就有10000
个,若果此时第一层有100
个神经元(节点),那么第一层的参数就有10000*100
,100
万个参数,只有一层并且用的图像尺寸还不算大,就有如此庞大的参数,图片更大网络更深的参数量可想而知。深层全连接网络如图2所示。
线性层——全连接层
CLASS torch.nn.Linear(in_features: int, out_features: int, bias: bool = True)
Linear
类用矩阵乘法的形式实现对所有输入的加权求和,如式(2),由于x
出现在权值矩阵左方,如果输入的是一维数据(一个样本),它应该是一个行向量,此时输入尺寸就等于向量长度。
当输入数据是多维时,真正输入其实也只是一个一维行向量(实际应用中的一个样本,二维图像全像素作为输入时也要拉成一维向量),之所以表现为多维,是因为把多个输入并列计算,以避免循环读,提升效率(即实际应用中常见的多个样本并列组成一个大矩阵作为整体输入)。故输入尺寸in_features
依旧只是行向量的尺寸,它才决定神经元个数,在输入数据中表现为最高维的尺寸,如图4中三维张量中dim=2
的尺寸4
。输出尺寸out_features
与输入尺寸遵循一样的法则。
当输入、输出尺寸给定后,类方法会自动创建权值张量。如果偏置bias=True
,还会创建一个长度为out_features
的一维偏置张量。参数被默认初始化后服从(-sqrt(k), sqrt(k))
上的均匀分布,其中k
为in_features
的倒数。
class Parameter(Tensor):
def __init__(self, data: Tensor, requires_grad: builtins.bool): ...
Linear
类继承于Module
类,它是Pytorch神经网络模型的最小模块的一种。权值和偏置参数继承于Parameter
类,而Parameter
又继承于Tensor
,所以它们本质都是张量,只是默认了需要梯度。和定义复杂的网络一样,Linear
也是在__init__
方法中定义它的属性参数 ,在forward
方法中完成运算,即前向传播。看Linear
源码,会发现在其forward
方法中是直接调用functional
中的函数来实现的,如下。
def linear(input, weight, bias=None):
if input.dim() == 2 and bias is not None: # 输入是二维时,用addmm简化计算
# fused op is marginally faster
ret = torch.addmm(bias, input, weight.t()) # 转置t
else:
output = input.matmul(weight.t())
if bias is not None:
output += bias
ret = output
return ret
# CSDN意疏原创笔记:https://blog.csdn.net/sinat_35907936/article/details/107727776
torch.addmm(input, mat1, mat2, *, beta=1, alpha=1, out=None)
该函数可以完成两个矩阵内积后再加上一个矩阵,正好适合输入数据是二维时加权求和后加上偏置的操作。
Linear
应用代码
import torch
data_in = torch.full((2, 3, 4), 2)