Vision Transformers for Dense Prediction 论文阅读

最新推荐文章于 2023-04-14 09:29:56 发布

CV小菜鸡 123

最新推荐文章于 2023-04-14 09:29:56 发布

阅读量1.9k

点赞数 10

文章标签： transformer 计算机视觉

本文链接：https://blog.csdn.net/qq_42434944/article/details/121065404

版权

研一小菜鸡一枚，刚刚入门CV领域，最近对大火的Transformer 比较感兴趣，把刚刚阅读过的一篇论文和大家分享一下，第一次写文章，如有错误，还请指正。
先放一下论文链接：https://arxiv.org/pdf/2103.13413v1.pdf

Background

在阅读论文之前我们要先知道Dense prediction的定义
Dense Prediction：Pixelwise dense prediction is the task of predicting a label for each pixel in the image 也就是要标注出每个像素点的对象类别，例如在Depth Estimation 任务中，需要给出每个像素点对应的深度值。
在密集预测任务中，基于深度学习的做法主要有两种：

基于图像分块任务：利用像素，超像素块周围的小邻域进行独立的分类（使用的是全连接层，因此需要固定图像块的尺寸大小）
基于全卷积网络：对图像进行 pixel-to-pixel的预测，可以得到任意大小图形的分割结果，而且不需要对每个图像块进行分类，速度快。

在Transformer应用在Dense predicition中之前，全卷积网络在Dense predicition应用较多，但是卷积自身也有很多的缺点。
使用卷积作为主干时，需要逐步对图片进行下采样操作，以获得多个尺度上的特征，讲低级特征分组成抽象的高级特征，同时保证不会超出网络的内存。但是下采样操作有明显的缺点，在密集预测中尤其明显，经过下采样操作处理之后，特征的分辨率和粒度会丢失，而且这种丢失在解码阶段很难恢复。

 粗粒度图像分类：类别之间差异大，比如人、汽车、树
 细粒度图像分类：类别之间差异小，比如200种鸟的分类、100种花的分类

为了解决特征粒度损失提出了各种技术。

dialated convolutions 结构

最低0.47元/天解锁文章

CV小菜鸡 123

关注

10
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
Vision Transformers for Dense Prediction 论文阅读

研一小菜鸡一枚，刚刚入门CV领域，最近对大火的Transformer 比较感兴趣，把刚刚阅读过的一篇论文和大家分享一下，第一次写文章，如有错误，还请指正。先放一下论文链接：https://arxiv.org/pdf/2103.13413v1.pdfBackground在阅读论文之前我们要先知道Dense prediction的定义Dense Prediction：Pixelwise dense prediction is the task of predicting a label for each
复制链接

扫一扫