1.Backbone
backbone这个单词原意指的是人的脊梁骨,后来引申为支柱,核心的意思。
在神经网络中,尤其是CV领域,一般先对图像进行特征提取(常见的有vggnet,resnet,谷歌的inception),这一部分是整个CV任务的根基,因为后续的下游任务都是基于提取出来的图像特征去做文章(比如分类,生成等等)。
所以将这一部分网络结构称为backbone十分形象,仿佛是一个人站起来的支柱。
主干网络,用来做特征提取的网络,代表网络的一部分,一般是用于前端提取图片信息,生成特征图feature map,供后面的网络使用。通常用VGGNet还有你说的Resnet,因为这些backbone特征提取能力是很强,并且可以加载官方在大型数据集(Pascal 、Imagenet)上训练好的模型参数,然后接自己的网络,进行微调finetune即可。
2.head:
head是获取网络输出内容的网络,利用之前提取的特征,head利用这些特征,做出预测。
3.neck:
是放在backbone和head之间的,是为了更好的利用backbone提取的特征。
4.bottleneck:
瓶颈的意思,通常指的是网络输入的数据维度和输出的维度不同,输出的维度比输入的小了许多,就像脖子一样,变细了。经常设置的参数 bottle_num=256,指的是网络输出的数据的维度是256 ,可是输入进来的可能是1024维度的。
bottle_layer_网友理解:就是通过1*1的卷积来大幅度改变通道数的操作,在残差网络中就是为了能减少训练参数(防止过拟合),能加深网络层数。
5.GAP:
在设计的网络中经常能够看到gap这个层,我之前不知道是干啥的,后了解了,就是Global Average Pool全局平均池化,就是将某个通道的特征取平均值,经常使用AdaptativeAvgpoold(1),在pytorch中,这个代表自适应性全局平均池化,说人话就是将某个通道的特征取平均值。
self.gap = nn.AdaptiveAvgPool2d(1)
6.Embedding:
深度学习方法都是利用使用线性和非线性转换对复杂的数据进行自动特征抽取,并将特征表示为“向量”(vector),这一过程一般也称为“嵌入”(embedding)。
个人理解:数据 → 特征向量,在同栏中会继续深入介绍embedding在DL中的理解。
7.pretext task和downstream task:
用于预训练的任务被称为前置/代理任务(pretext task),用于微调的任务被称为下游任务(downstream task)
8.temperature parameters:
在论文中经常能看到这个温度参数的身影,那么他都有什么用处呢?比如经常看到下面这样的式子:
里面的beta就是temperature parameter,他在运算的时候起到什么作用呢?是这样的,他可以起到平滑softmax输出结果的作用,举例子如下:
import torch
x = torch.tensor([1.0,2.0,3.0])
y = torch.softmax(x,0)
print(y)
x1 = x / 2 # beta 为2
y = torch.softmax(x1,0)
print(y)
x2 = x/0.5 # beta 为0.5
y = torch.softmax(x2,0)
print(y)
输出结果如下:
tensor([0.0900, 0.2447, 0.6652])
tensor([0.1863, 0.3072, 0.5065])
tensor([0.0159, 0.1173, 0.8668])
当beta>1的时候,可以将输出结果变得平滑,当beta<1的时候,可以让输出结果变得差异更大一下,更尖锐一些。如果beta比较大,则分类的crossentropy损失会很大,可以在不同的迭代次数里,使用不同的beta数值,有点类似于学习率的效果。
9.热身Warm up:
Warm up指的是用一个小的学习率先训练几个epoch,这是因为网络的参数是随机初始化的,一开始就采用较大的学习率容易数值不稳定。
10.end to end:
在论文中经常能遇到end to end这样的描述,那么到底什么是端到端呢?其实就是给了一个输入,我们就给出一个输出,不管其中的过程多么复杂,但只要给了一个输入,机会对应一个输出。比如分类问题,你输入了一张图片,肯呢个网络有特征提取,全链接分类,概率计算什么的,但是跳出算法问题,单从结果来看,就是给了一张输入,输出了一个预测结果。End-To-End的方案,即输入一张图,输出最终想要的结果,算法细节和学习过程全部丢给了神经网络。
11.domain adaptation 和domain generalization 域适应和域泛化:
域适应中,常见的设置是源域D_S完全已知,目标域D_T有或无标签。域适应方法试着将源域知识迁移到目标域。第二种场景可以视为domain generalization域泛化。这种更常见因为将模型应用到完全未知的领域,正因为没有见过,所以没有任何模型更新和微调。这种泛化问题就是一种开集问题,由于所需预测类别较多,所以比较头疼。
12.深度学习中的那些Trade-off:
:https://zhuanlan.zhihu.com/p/338415312
Reference:
[1]:https://www.zhihu.com/question/399611596/answer/1575154591
[2]:https://zhuanlan.zhihu.com/p/348800083
[3]:https://www.zhihu.com/zvideo/1339968067628105728
[4]bottle_layer:https://blog.csdn.net/u013066730/article/details/84024774