《南溪的目标检测学习笔记》——常见算子的学习笔记

songyuc

已于 2022-12-07 22:23:30 修改

阅读量317

点赞数

文章标签：目标检测学习基础算子

于 2022-02-23 12:52:07 首次发布

本文链接：https://blog.csdn.net/songyuc/article/details/123087467

版权

Basic

Optimality Theory

在最优化理论中，我们可以将算子看作是向量值函数映射，
在这里插入图片描述
举例来说，这里：

输入张量 $\mathcal{X}$ 看作是向量 $\mathbf{x} \in \mathbb{R}^n$ ，
输出张量 $\mathcal{Y}$ 看作是向量 $\mathbf{y} \in \mathbb{R}^m$ ；
张量 $\mathcal{X}$ 的维度平铺之后可以看作为向量，即： $n = N C H W$

1 Convolution

1.2 乘性注意力卷积： $\mathcal{Y} = \mathcal{X} \cdot\mathcal{M}$

CCA Block: BSNR.CCALayer

这里我们使用BSNR论文中的图来学习 CCA Block
在这里插入图片描述
在CCA生产注意力时，有一个很有趣的模块Contrast，它的实现是这样的 [Contrast | stdv_channels()]

def stdv_channels(F):
    assert (F.dim() == 4)
    F_mean = mean_channels(F)
    F_variance = (F - F_mean).pow(2).sum(3, keepdim=True).sum(2, keepdim=True) / (F.size(2) * F.size(3))
    return F_variance.pow(0.5)
 contrast = stdv_channels

相当于InstanceNorm的前半部分的分布归一化；

2 Activation

2.2 Softmax：非线性归一化

数学公式：
$\operatorname{Softmax}\left(x_i\right)=\frac{\exp \left(x_i\right)}{\sum_j \exp \left(x_j\right)}$

3 Sampling

4.1 Down Sampling

Down sample	FPS	BS
`Focus`	wait…	wait…
Nearest	wait…	wait…
Bilinear	wait…	wait…
Bicubic	wait…	wait…
MaxPool	wait…	wait…
AdaptiveMaxPool	wait…	wait…

2.2 Up Sampling

Conv+PixelShuffle: Learnable sub-pixel layer

第一次看到这个上采样算子是在RFDN模型中，其代码为: [code]

def pixelshuffle_block(in_channels, out_channels, upscale_factor=2, kernel_size=3, stride=1):
    conv = conv_layer(in_channels, out_channels * (upscale_factor ** 2), kernel_size, stride)
    pixel_shuffle = nn.PixelShuffle(upscale_factor)
    return sequential(conv, pixel_shuffle)

3 Information Exchange

3.1 ChannelShuffle: A good competitor of 1*1 convolutiuon [SOURCE]

ChannelShuffle是ShuffleNetV2中十分经典的算子，从效果上看，其主要作用是进行了通道间的信息交换，这一点跟 1*1-Conv 的作用十分类似；
在ShuffleNetV2中，使用ChannelShuffle的语句是：out = channel_shuffle(out, 2)，届在cat操作后面实现res特征与conv特征的信息交换；

4 Pooling

关于池化层的基本实现，请参考《22 池化层【动手学深度学习v2】》；

5 Experiment

Hardware for Test

GPU: 2080Ti (Turing)

Input size

我们需要对算子占用的显存大小进行测试，在测试时需要模拟输入的特征张量，对于输入特征图的大小，这里我们使用YOLOv5主干部分计算量密集（即使用了多个C3模块）stages的输出特征图尺寸取平均值：

nums_C3s = (3,6,9,3)
(160*nums_C3s[0] + 80*nums_C3s[1] + 40*nums_C3s[2] + 20*nums_C3s[3])/sum(nums_C3s)
>>> 65.71428571428571

这里我们取最近的8的倍数，也就是128；