转置卷积是一种上采样(upsample)方法, 其他的上采样方法还有双线性插值,unpool
而转置卷积与他们相比,属于learnable unsampling,参数可学习,可通过网络学习来获取最优的上采样方式
我们说的
- deconvolution 反卷积
- transposed convolution 转置卷积
- fractional strided convolution
- deconvolution
- backward strided convolution
都是同一个概念。转置卷积是最合适的名字,反卷积不太恰当
反卷积的实现原理实际就是卷积,但为了输出大小反而变大,就在输入图片中添加了padding
大家可能对于反卷积的认识有一个误区,以为通过反卷积就可以获取到经过卷积之前的图片,实际上通过反卷积操作并不能还原出卷积之前的图片,只能还原出卷积之前图片的尺寸。
那么到底反卷积有什么作用呢?通过反卷积可以用来可视化卷积的过程,反卷积在GAN等领域中有着大量的应用。
- 在 DCGAN,生成器将随机值转变为一个全尺寸图片,此时需用到转置卷积。
- 在语义分割中,会在编码器中用卷积层提取特征,然后在解码器中恢复原先尺寸,从而对原图中的每个像素分类。该过程同样需用转置卷积。经典方法有 FCN[2] 和 U-net[3]。
- CNN 可视化:通过转置卷积将 CNN 的特征图还原到像素空间,以观察特定特征图对哪些模式的图像敏感。
卷积的正向传播就是反卷积的反向传播
卷积的反向传播就是反卷积的正向传播
fractional strided
需要注意的是,在进行反卷积的时候设置的stride并不是指反卷积在进行卷积时候卷积核的移动步长,而是被卷积矩阵填充的padding
代码示例
torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True, dilation=1, padding_mode='zeros', device=None, dtype=None)
import torch from torch import nn conv = nn.Conv2d(in_channels=3, out_channels=8, kernel_size=3, stride=2, padding=1) Dconv = nn.ConvTranspose2d(in_channels=8, out_channels=3, kernel_size=3, stride=2, padding=1) x = torch.randn(1, 3, 5, 5) feature = conv(x) print(feature.shape) # out : torch.Size([1, 8, 3, 3]) y = Dconv(feature) print(y.shape) # out : torch.Size([1, 3, 5, 5])
如果一张图片经过卷积后再经过反卷积
import torch from torch import nn import torchvision import torchvision.transforms as transforms import cv2 conv = nn.Conv2d(in_channels=3, out_channels=8, kernel_size=3, stride=2, padding=1) Dconv = nn.ConvTranspose2d(in_channels=8, out_channels=3, kernel_size=3, stride=2, padding=1) img = cv2.imread('wave.jpg') img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) print(img.shape) # numpy数组格式为(H,W,C) img_tensor = transforms.ToTensor()(img) # tensor数据格式是torch(C,H,W) print(img_tensor.size()) img_tensor = img_tensor.unsqueeze(dim=0) feature = conv(img_tensor) y = Dconv(feature) input_tensor = y.clone().detach().to(torch.device('cpu'))# 到cpu torchvision.utils.save_image(input_tensor, "out_cv.jpg")
原图
结果
实验展示一下转置卷积的可训练效果
import torch from torch import nn import torchvision import torchvision.transforms as transforms import cv2 from torch import optim conv = nn.Conv2d(in_channels=3, out_channels=8, kernel_size=3, stride=1, padding=1) Dconv = nn.ConvTranspose2d(in_channels=8, out_channels=3, kernel_size=3, stride=1, padding=1) img = cv2.imread('wave.jpg') img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # numpy数组格式为(H,W,C) img_tensor = transforms.ToTensor()(img) # tensor数据格式是torch(C,H,W) img_tensor = img_tensor.unsqueeze(dim=0) l1loss = nn.L1Loss() optimizer = optim.Adam(Dconv.parameters(), lr=1e-3, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False) for i in range(100): feature = conv(img_tensor) y = Dconv(feature) loss = l1loss(img_tensor, y) optimizer.zero_grad() loss.backward() optimizer.step() print(i,loss) if i % 10 == 0: output = y.clone().detach().to(torch.device('cpu'))# 到cpu torchvision.utils.save_image(output, f"out_cv_{i}.jpg")
可以看到,越来越接近于原图