研一小菜鸡一枚,刚刚入门CV领域,最近对大火的Transformer 比较感兴趣,把刚刚阅读过的一篇论文和大家分享一下,第一次写文章,如有错误,还请指正。
先放一下论文链接:https://arxiv.org/pdf/2103.13413v1.pdf
Background
在阅读论文之前我们要先知道Dense prediction的定义
Dense Prediction:Pixelwise dense prediction is the task of predicting a label for each pixel in the image 也就是要标注出每个像素点的对象类别,例如在Depth Estimation 任务中,需要给出每个像素点对应的深度值。
在密集预测任务中,基于深度学习的做法主要有两种:
- 基于图像分块任务:利用像素,超像素块周围的小邻域进行独立的分类(使用的是全连接层,因此需要固定图像块的尺寸大小)
- 基于全卷积网络:对图像进行 pixel-to-pixel的预测,可以得到任意大小图形的分割结果,而且不需要对每个图像块进行分类,速度快。
在Transformer应用在Dense predicition中之前,全卷积网络在Dense predicition应用较多,但是卷积自身也有很多的缺点。
使用卷积作为主干时,需要逐步对图片进行下采样操作,以获得多个尺度上的特征,讲低级特征分组成抽象的高级特征,同时保证不会超出网络的内存。但是下采样操作有明显的缺点,在密集预测中尤其明显,经过下采样操作处理之后,特征的分辨率和粒度会丢失,而且这种丢失在解码阶段很难恢复。
粗粒度图像分类:类别之间差异大,比如人、汽车、树
细粒度图像分类:类别之间差异小,比如200种鸟的分类、100种花的分类
为了解决特征粒度损失提出了各种技术。
-
dialated convolutions 结构