论文阅读
文章平均质量分 94
CV小Rookie
love life~
展开
-
Vision Transformer with Deformable Attention
Vision Transformer with Deformable Attention原创 2022-12-08 09:57:00 · 2710 阅读 · 0 评论 -
Focal Self-attention for Local-Global Interactions in Vision Transformers
最近,Vision Transformer 及其变体在各种计算机视觉任务中表现出了巨大的潜力,但由于二次方计算开销,它也带来了挑战,特别是对于高分辨率视觉任务(例如,对象检测)。最近的许多工作都试图通过应用粗粒度的全局注意力或细粒度的局部注意力来降低计算和内存成本并提高性能。然而,这两种方法都削弱了多层 Transformer 原始自注意力机制的建模能力,从而导致次优解决方案。在本文中,我们提出了 focal self-attention,这是一种结合了细粒度局部交互和粗粒度全局交互的新机制。原创 2022-11-28 19:41:04 · 914 阅读 · 0 评论 -
Multiscale Vision Transformers 论文详解
我们提出了 Multiscale Vision Transformers(MViT)用于视频和图像识别。MViT 是多尺度特征层次结构和Transformer的结合。MViT 有几个通道分辨率尺度块(channel-resoluation scale stages)。从输入分辨率和小通道维度开始,这些stages扩展通道容量,同时降低空间分辨率。这创建了一个多尺度特征金字塔,早些的层在高空间分辨率下运行以模拟简单的低级视觉信息,而更深层在空间粗糙但复杂的高维特征上运行。原创 2022-11-21 14:39:43 · 2897 阅读 · 0 评论 -
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文翻译 + 网络详解
Swin Transformer swin 最主要的贡献就是可以作为通用的计算机视觉任务的主干网络(Transformer 只是证明了在分类问题上有效),另外可以大致对于 swin 有一个了解:移位窗口,分层架构,窗口间允许跨窗口连接,从而导致模型复杂度小。原创 2022-08-23 16:39:54 · 2369 阅读 · 0 评论 -
MAE 论文《Masked Autoencoders Are Scalable Vision Learners》
《Masked Autoencoders Are Scalable Vision Learners》,我直呼666原创 2022-08-01 16:53:43 · 2017 阅读 · 0 评论 -
Vision Transformer 论文 + 详解( ViT )
Vision Transformer 论文 + 详解原创 2022-08-01 13:01:17 · 10999 阅读 · 0 评论 -
Attention Is All You Need(Transformer)
关于《Attention Is All Your Need》论文的翻译以及 Self-Attention 和 Multi-Head Attention的详解原创 2022-07-26 20:14:12 · 676 阅读 · 0 评论 -
Image-Adaptive YOLO for Object Detection in Adverse Weather Conditions
用于恶劣天气条件下目标检测的图像自适应 YOLOAbstract尽管基于深度学习的目标检测方法已经在传统数据集上取得了可喜的结果,但现在从低质量图像,例如在恶劣的天气条件下捕获定位对象,仍然具有挑战性。现有方法要么难以平衡图像增强和目标检测,或者经常忽略潜在的有利于检测的信息。为了缓解这个问题,我们提出了一种新颖的图像自适应 YOLO (IA-YOLO)框架,其中每个图像都可以自适应地增强更好的检测性能。具体来说,提出了一个可微分图像处理(DIP)模块来考虑YOLO 探测器的恶劣天气条件,其参数原创 2022-03-18 15:56:26 · 6347 阅读 · 4 评论 -
Deep Adversarial Decomposition: A Unified Framework for Separating Superimposed Images
从混合图像中分离单个图像层长期以来一直是一项重要且具有挑战性的任务。作者提出一个统一的框架——“深度对抗分解”。作者在对抗训练范式下处理线性和非线性混合。考虑到分离模糊的问题,引入了“分离评论家”——一个判别网络,它被训练来识别输出层是否分离良好,从而进一步改善分离情况。作者提出一个新的损失函数——“crossroad L1”,它以交叉方式计算无序输出与其参考之间的距离,实现像素级的监督,更好地指导训练。实验结果表明,该方法明显优于其他流行的图像分离框架。原创 2021-11-16 20:38:46 · 550 阅读 · 0 评论 -
DeblurGAN-v2: Deblurring (Orders-of-Magnitude) Faster and Better 图像去模糊
设计了一个新的端到端的生成对抗网络,为了解决运动中图像模糊问题,DeblurGAN-V2,基于relativistic conditional GAN(拥有双尺度鉴别器)首次将特征金字塔引入到去模糊问题,作为生成器的核心模块。可以灵活搭配各种主干网络,选择Inception-ResNet-v2主干网络可以获得更高的图片质量,采用轻量级网络像MobileNet和他的变形体可以获得更快的速度。DeblurGAN-v2 在去模糊质量以及效率方面在几个流行的基准测试中获得了非常有竞争力的性能。原创 2021-11-05 14:47:40 · 3923 阅读 · 0 评论 -
《Image-to-Image Translation with Conditional Adversarial Networks》文章翻译
我们研究以CAN作为解决图像之间转换问题的通用解决方法,这个网络不仅仅学习输入图像到输出图像的映射,还学习了训练这种映射的损失函数。这使得可以应用一个相同的方法去解决传统的需要多个不同损失函数的问题成为可能。我们证实了这个方法对以下几种方面很有效:从标签图片合成照片,从线图重构对象,为图片上色等其他任务。的确,自从与此论文相关的pix2pix软件的发布,大量的互联网用户发布了他们自己的利用我们系统的实现,进一步证明了我们的方法有广泛的适用性并且无需调整参数简单采用。我们不再手动设计我们的映射函数,并且这项工原创 2021-09-29 16:26:50 · 371 阅读 · 0 评论