torch.nn.functional 涉及了所有 torch.nn 需要 类 和 方法 ,torch.nn 构建的模块通常就是调用 torch.nn.functional 里的方法实现的,通过学习 torch.nn.functional 能为后期更好学习构建模型打下基础。
下文涉及 tensor 形状描述:
B: batch大小
C:通道数
H:图像数据的高度
W:图像数据的宽度
L:一维数据的长度
下标 $i, k, o $ 分别表示输入、卷积核、输出
1 卷积
###1.1 torch.nn.functional.conv1d() 一维卷积
先看看此函数的模样以及各个参数含义:
import torch.nn.functional as F
F.conv1d(input=inputs, weight=kernel, bias=None,
stride=1, padding=0, dilation=1, groups=1)
参数含义
input:待卷积tensor ,形状为 ( B , C i , L i ) (B, C_i, L_i) (B,Ci,Li)
weight: 卷积权重,也就是卷积核 ,形状为 ( C k , C i g r o u p , L k ) (C_k, \frac{C_i}{group}, L_k) (Ck,groupCi,Lk)
stride: 每次核移动的步长,默认为1
padding: 在 input 两端各自补充几个0, 默认为0
dilation: 核膨胀间隔数,默认为1
group: C i C_i Ci的分组数
详细解释参数含义如下:
input
可以如下图解释:
weight
形状如下图所示。
weight
参数有限制:
[
C
k
,
C
i
g
r
o
u
p
,
L
k
]
[C_k, \frac{C_i}{group}, L_k]
[Ck,groupCi,Lk]里的
C
k
C_k
Ck必须可以被 $group $ 整除 , 且第二项必须是
C
i
g
r
o
u
p
\frac{C_i}{group}
groupCi。
注意!虽然都是三维Tensor ,但是它们各个维度的含义变化了。
这里有一个难以理解的地方:请注意体会:
我们输入样本是
[
B
,
C
i
,
L
i
]
[B, C_i, L_i]
[B,Ci,Li] ,权重是
[
C
k
,
C
i
g
r
o
u
p
,
L
k
]
[C_k, \frac{C_i}{group}, L_k]
[Ck,groupCi,Lk],输出形状是
[
B
,
C
o
,
L
o
]
[B, C_o, L_o]
[B,Co,Lo] ,其中
B
B
B 很好理解,因为我们batch 只是一个批量化操作,样本间是没有交互的,所以进来多少样本,各自做完相应操作也就会出去多少样本。这个
L
o
L_o
Lo 也是不难理解滴,这个
L
o
L_o
Lo 是与 $ L_k$ $ L_i$ 都有关的。后面再说。
那我们是怎么把这 $ C_i$ 变成$ C_o$的呢。
C
i
g
r
o
u
p
\frac{C_i}{group}
groupCi又是怎么回事呢?
因为 weight 只是对batch 里的所有样本做相同操作,所以我们只看 weight 对 input 形势图的其中一层做了什么即可
我们来把上面那两个图放大看看整个卷积流程:
假设我们按照以下参数输入:
inputs = torch.randint(low=0, high=5, size=(2, 4, 5))
kernel = torch.randint(low=0, high=3, size=(2, 2, 2))
bias = torch.randint(low=0, high=3, size=(4,))
out = F.conv1d(input=inputs, weight=kernel, bias=None,
stride=1, padding=0, dilation=1, groups=2)
从上图我们可以看出,其计算过程是 先按照 group这个参数把
C
k
C_k
Ck
C
i
C_i
Ci都分成 group 组,然后假设每一组有
m
m
m个二维卷积核
n
n
n个二维样本。
下面两张图则分别演示了
m
,
n
m,n
m,n 不同大小的计算过程:
总结:conv 算法最重要的是 :
- input 和 weight 的形状必须符合我面提到的规则
- group 这个概念对理解 pytorch 的卷积算法很重要,再重复一遍,它的规则就是把
C
i
,
C
k
C_i, C_k
Ci,Ck 都分成 group 组
每组得到的 核通道 N k N_k Nk和输入通道 N i N_i Ni一定满足 N k N_k Nk ≥ \geq ≥ N i N_i Ni
如果 N k N_k Nk = = = N i N_i Ni ,那么 该组核通道与输入通道就会一一对应进行卷积
如果 N k N_k Nk > \gt > N i N_i Ni ,比如分组后一组4个核通道,2个输入通道,
那么该组前2个核通道与第1个输入通道就会各自进行卷积
那么该组后2个核通道与第2个输入通道就会各自进行卷积
group这个参数的本质就是,卷积后得到的结果,其某个通道的输出,是由输入向量的几个通道构成的。
如果 group ==1 那么意味着要想计算一个通道输出,需要所有的输入通道参与运算
如果 group ==
C
i
C_i
Ci 意味着计算一个通道的输出,只需要输入的某一个通道
如果 group 是中间某个值,意味着计算一个通道的输出,需要输入的
C
i
g
r
o
u
p
\frac{C_i}{group}
groupCi个通道参与运算