论文分享
文章平均质量分 92
CV技术指南(公众号)
博客原创均来源于公众号CV技术指南文章
展开
-
SegGPT:在上下文中分割一切
所有的采样都是关于颜色的,即相同的颜色表示相同的类别或相同的实例。作者使用不同类型的分割数据集,包括部分、语义、实例、全景、人、视网膜和航拍图像分割,提供一个统一的视角,无需对数据集进行额外的工作或调整,并且在添加额外数据集时不需要对架构或pipeline进行修改,这与以前需要手工标签合并来组合不同类型的分割数据集的方法不同。类似地,在实例分割中,实例对象的颜色是根据其位置类别分配的,即颜色的数量等于空间位置的数量,从而得到模型仅依靠颜色本身来确定任务,而不是使用段之间的关系。其余的训练保持不变。原创 2023-04-12 11:29:13 · 2188 阅读 · 0 评论 -
AAAI 2023 | 轻量级语义分割新范式: Head-Free 的线性 Transformer 结构
现有的语义分割工作主要集中在设计有效的解-码器上,然而,一直以来都忽略了这其中的计算成本。本文提出了一种专门用于语义分割的 Head-Free 轻量级架构,称为 Adaptive Frequency Transformer (AFFormer) 。采用异构运算符(CNN 和 ViT)进行像素嵌入和原型表示,以进一步节省计算成本。由于语义分割对频率信息非常敏感,构建了一个具有复杂度 O(n) 的自适应频率滤波器的轻量级模块。原创 2023-03-31 12:29:53 · 2042 阅读 · 0 评论 -
CVPR2023 | 集成预训练金字塔结构的Transformer模型
本文提出了一种新的预训练模型架构(iTPN ),该架构由多个金字塔形的Transformer层组成。每个层都包含多个子层,其中一些是普通的self-attention和feed-forward层,而另一些则是新的pyramid层。Pyramid层是一种新的层类型,它被设计为对输入进行多粒度的表示学习。此外,iTPN 还使用了一些其他的技巧,以提高模型的鲁棒性和泛化能力。原创 2023-03-15 11:03:07 · 1670 阅读 · 0 评论 -
AAAI 2023 | 一种通用的粗-细视觉Transformer加速方案
本文中提出了一种由粗到精的视觉变换器(CF-ViT)来减轻计算负担,同时保持性能。CF-ViT 以两阶段的方式实现网络推理。在粗略推理阶段,输入图像被分成一个小长度的补丁序列,用于计算上经济的分类。如果没有被很好地识别,信息块将被识别并进一步以细粒度重新分割。原创 2023-03-13 15:48:50 · 496 阅读 · 0 评论 -
CVPR 2023 | 基础模型推动语义分割的弱增量学习
语义分割的弱增量学习(WILSS)目的是学习从廉价和广泛可用的图像级标签中分割出新的类别,但图像级别的标签不能提供定位每个片段的细节。为了解决该问题,本文提出了一个新颖且数据高效的框架(FMWISS)。该框架提出了基于预训练的共同分割,以提炼出互补基础模型的知识来生成密集的伪标签。用师生结构进一步优化噪声伪标签,并引入基于内存的复制-粘贴增强技术,以改善旧类的灾难性遗忘问题。原创 2023-03-01 19:12:40 · 1477 阅读 · 0 评论 -
姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计
现有的头部姿势估计主要集中在具有预先检测到的正面头部的单个人,这依赖于单独训练的面部检测器,不能很好地泛化到完整的视点。在本文中,作者关注全范围 MPHPE 问题,并提出了一个名为 DirectMHP 的直接端到端简单基线,通过多头的联合回归位置和方向设计了一种新颖的端到端可训练单级网络架构,以解决 MPHPE 问题。这种灵活的设计可以接受任意姿势表示,同时可以隐含地从更多环境中获益,以提高 HPE 精度,同时保持头部检测性能。原创 2023-02-11 16:04:55 · 1237 阅读 · 0 评论 -
用于超大图像的训练策略:Patch Gradient Descent
本文旨在计算和内存限制的情况下,解决在大规模图像上训练现有CNN 架构的问题。提出PatchGD,它基于这样的假设:与其一次对整个图像执行基于梯度的更新,不如一次只对图像的一小部分执行模型更新,确保其中的大部分是在迭代过程中覆盖。当在大规模图像上训练模型时,PatchGD 广泛享有更好的内存和计算效率。尤其是在计算内存有限的情况下,该方法在处理大图像时比标准梯度下降法更稳定和高效。原创 2023-02-11 15:37:35 · 976 阅读 · 0 评论 -
新方案:从错误中学习,点云分割中的自我规范化层次语义表示
LiDAR 语义分割通过直接作用于传感器提供的原始内容来完成细粒度的场景理解而受到关注。最近的解决方案展示了如何使用不同的学习技术来提高模型的性能,而无需更改任何架构或数据集。遵循这一趋势,论文提出了一个从粗到精的设置,该设置从标准模型派生的分类错误 (LEAK) 中学习。原创 2023-02-11 15:30:11 · 563 阅读 · 0 评论 -
IncepFormer:用于语义分割的高效inception transformer
本文提出了一种简单而强大的语义分割架构——IncepFormer。IncepFormer介绍了一种新颖的金字塔结构Transformer编码器,它同时获取全局上下文和精细定位特征。IncepFormer还集成了具有深度卷积的类Inception架构,以及每个自注意力层中的轻量级前馈模块,有效地获得了丰富的局部多尺度对象特征。原创 2022-12-08 11:36:27 · 1849 阅读 · 0 评论 -
Transformer-Based Learned Optimization
本文为学习优化器提出一种新的神经网络体系结构,其灵感来自经典的BFGS算法。和BFGS一样,将预条件矩阵估计为一级更新的和,但使用基于transformer的神经网络来预测这些更新以及步长和方向。与以往几种优化方法相比,能在目标问题的参数空间的不同维度之间进行条件反射,同时仍然适用于变维度的优化任务,无需再训练。原创 2022-12-08 09:54:22 · 699 阅读 · 0 评论 -
ECCV 2022 | OA-MIL:目标感知多实例学习方法
通过将目标视为实例包,作者提出了一种目标感知多实例学习方法(OA-MIL),其特点是目标感知实例选择和目标感知实例扩展。前者旨在为训练选择准确的实例,而不是直接使用不准确的框标注。后者侧重于生成用于选择的高质量实例。原创 2022-09-12 11:49:33 · 1103 阅读 · 0 评论 -
ECCV 2022 | k-means Mask Transformer
在本文中,作者重新思考像素和对象查询之间的关系,并提出将交叉注意学习重新定义为一个聚类过程。受传统k-means聚类算法的启发,开发了一种用于分割任务的k-means Mask Xformer (kMaX-DeepLab),它不仅改进了最先进的技术,而且具有简单优雅的设计。kMaX-DeepLab在COCO val set和Cityscapes val set 上实现了新的SOTA的性能,无需测试时间增强或外部数据集。原创 2022-09-04 12:55:05 · 2756 阅读 · 2 评论 -
ECCV 2022 | MVDG:一种用于域泛化的统一多视图框架
论文提出了一种新的多视图分布式目标框架,以有效地减少训练和测试阶段的过拟合。具体来说就是,在训练阶段,开发了一种多视图正则化元学习算法,利用多个优化轨迹产生适合模型更新的优化方向。在测试阶段,利用多幅增强图像进行多视图预测,缓解了预测不稳定的问题,显著提高了模型的可靠性。原创 2022-09-02 10:43:49 · 1031 阅读 · 0 评论 -
ECCV 2022 | 新方案: 先剪枝再蒸馏
论文提出了一个新的框架,“prune, then distill”,该框架首先剪枝模型,使其更具可移植性,然后提取给student。并进一步从理论上证明了剪枝后的teacher在蒸馏中起到正则化器的作用,减少了泛化误差。...原创 2022-08-28 16:41:07 · 2607 阅读 · 0 评论 -
YOLOV:图像对象检测器在视频对象检测方面表现也很不错
与传统的两段pipeline不同,论文提出了在一段检测之后再进行区域级的选择,避免了处理大量低质量的候选区域。此外,还构建了一个新的模块来评估目标帧与参考帧之间的关系,并指导聚合。原创 2022-08-27 21:35:21 · 2599 阅读 · 2 评论 -
ECCV 2022 | FPN:You Should Look at All Objects
论文指出,大规模目标的性能下降是由于集成FPN后出现了不正确的反向传播路径。它使得骨干网络的每一层仅具有查看特定尺度范围内的目标的能力。基于这些分析,提出了两种可行的策略,以使主干的每一层都能够查看基于FPN的检测框架中的所有目标。一种是引入辅助目标函数,使每个主干层在训练期间直接接收各种尺度目标的反向传播信号。另一种是以更合理的方式构造特征金字塔,以避免不合理的反向传播路径。在COCO基准上的大量实验验证了分析的正确性和方法的有效性。......原创 2022-08-27 21:32:45 · 1170 阅读 · 0 评论 -
ECCV 2022 | RFLA:基于高斯感受野的微小目标检测标签分配
在本文中,作者提出了一种基于高斯感受野的标签分配(RFLA)策略用于微小目标检测。并提出了一种新的感受野距离(RFD)来直接测量高斯感受野和地面真值之间的相似性,而不是使用IoU或中心采样策略分配样本。考虑到基于IoU阈值和中心采样策略对大对象的倾斜,作者进一步设计了基于RFD的分层标签分配(HLA)模块,以实现小对象的平衡学习。在四个数据集上的大量实验证明了所提方法的有效性。作者的方法在AI-TOD数据集上的AP点数为4.0,优于SOTA。原创 2022-08-24 15:12:35 · 3744 阅读 · 0 评论 -
CVPR2022 | 简单高效的语义分割体系结构
本文提出了一种简单的编码-解码器体系结构,具有类似ResNet的主干和一个小的多尺度头,其性能与复杂的语义分割体系结构(如HRNet、FANet和DDRNets)相当或更好。另外,本文还为桌面和移动目标提供了一系列这样的简单架构。...原创 2022-08-10 21:59:41 · 5266 阅读 · 0 评论 -
CVPR 2022 | 网络中批处理归一化估计偏移的深入研究
批归一化(BN)是深度学习中的一项重要技术。在训练过程中使用小批量统计量对激活进行规范化,而在推理过程中使用估计的总体统计量进行规范化。本文主要研究总体统计量的估计问题。作者定义了BN的估计偏移幅度,以量化衡量其估计的种群统计数据与预期的差异。作者的主要观察是,由于网络中BN的叠加,估计偏移可能会累积,这对测试性能有不利影响。...原创 2022-07-26 17:10:44 · 613 阅读 · 0 评论 -
CVPR2022 | 长期行动预期的Future Transformer
在本文中,作者提出了一种端到端的动作预测注意模型,称为Future Transformer(FUTR),该模型利用所有输入帧和输出标记上的全局注意来预测未来动作的分钟长序列。与以往的自回归模型不同,该方法在并行解码中学习预测未来动作的整个序列,从而为长期预测提供更准确和快速的推理。.........原创 2022-06-26 19:26:53 · 1233 阅读 · 0 评论 -
CVPR2022 | 可精简域适应
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。论文:Slimmable Domain Adaptation论文:http://arxiv.org/pdf/2206.06620代码:https://github.com/hikvision-research/SlimDA深度神经网络通常对离线采集的图像(标记的源数据)进行训练,然后嵌入到边缘设备中,以测试从新场景中采集的图像(未标记的目标数据)。在实践中,这种模式由于域转移而降低了网络性能。近年来,越来越多的原创 2022-06-23 23:00:01 · 1312 阅读 · 0 评论 -
CVPR2022 | 弱监督多标签分类中的损失问题
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。论文:Large Loss Matters in Weakly Supervised Multi-Label Classification论文:http://arxiv.org/pdf/2206.03740代码:https://github.com/snucml/LargeLossMatters弱监督多标签分类(WSML)任务是利用每幅图像的部分观察标签来学习多标签分类,由于其巨大的标注成本,变得越来越重要。目原创 2022-06-21 21:14:19 · 1039 阅读 · 0 评论 -
CVPR2022 | A ConvNet for the 2020s & 如何设计神经网络总结
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。论文:https://arxiv.org/pdf/2201.03545.pdf代码: https://github.com/facebookresearch/ConvNeXtVIT问世以后,Swin Transformer在图像领域(分类下游任务)的全面大幅度超越 CNN 模型,仿佛印证了 Attetion 论文中 “Attention Is All You Need ”。ConvNext这篇论文,通过借鉴Sw原创 2022-06-13 11:29:19 · 683 阅读 · 0 评论 -
CVPR2022 | PanopticDepth:深度感知全景分割的统一框架
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。论文:PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation论文:http://arxiv.org/pdf/2206.00468代码:https://github.com/NaiyuGao/PanopticDepth.深度感知全景分割(DPS)是场景理解中的一项新的挑战性任务,它试图从单个图像构建具有实例级语义理解的三维场原创 2022-06-11 11:37:00 · 421 阅读 · 0 评论 -
CVPR2022 | 重新审视池化:你的感受野不是最理想的
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。论文:https://arxiv.org/abs/2205.15254代码:未发布尽管深度神经网络在计算机视觉、自然语言处理、机器人、生物信息学等各种应用中取得了前所未有的成功,但最优网络结构的设计仍然是一个具有挑战性的问题。而感受野的大小和形状决定了网络如何聚集本地信息,并对模型的整体性能产生显著影响。神经网络中的许多组成部分,例如用于卷积和池化运算的内核大小和步长,都会影响感受野的配置。然而,它们仍然依赖于原创 2022-06-07 21:56:48 · 579 阅读 · 0 评论 -
CVPR 2022 | 未知目标检测模块STUD:学习视频中的未知目标
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。论文:Unknown-Aware Object Detection: Learning What You Don't Know from Videos in the Wild论文:https://arxiv.org/abs/2203.03800代码:https://github.com/deeplearning-wisc/stud目标检测模型在被训练的已知上下文中已经取得了巨大的成功,但是在处理网络训练时没有接原创 2022-06-06 11:17:17 · 1462 阅读 · 0 评论 -
CVPR2022 | 通过目标感知Transformer进行知识蒸馏
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。论文:Knowledge Distillation via the Target-aware Transformer代码:暂未发布蒸馏学习是提高小神经网络性能事实上的标准,以前的工作大多建议以一对一的空间匹配方式将教师的代表特征回归到学生身上。然而,人们往往忽略这样一个事实,由于结构的差异,同一空间的语义信息通常是变化的,这大大削弱了一对一的蒸馏方法的基本假设。他们高估了空间顺序的先验性,而忽略了语义不匹配的问原创 2022-06-02 11:57:06 · 1596 阅读 · 0 评论 -
YOLO系列梳理(三)YOLOv5
前言YOLOv5 是在 YOLOv4 出来之后没多久就横空出世了。今天笔者介绍一下 YOLOv5 的相关知识。目前 YOLOv5 发布了新的版本,6.0版本。在这里,YOLOv5 也在5.0基础上集成了更多特性,同时也对模型做了微调,并且优化了模型大小,减少了模型的参数量。那么这样,就更加适合移动端了。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。YOLOv5 网络模型结构与之前的 YOLOv3、YOLOv4 不同,v3、v4 除..原创 2022-04-24 10:43:40 · 14041 阅读 · 0 评论 -
ICCV2021 | Tokens-to-Token ViT:在ImageNet上从零训练Vision Transformer
前言本文介绍一种新的tokens-to-token Vision Transformer(T2T-ViT),T2T-ViT将原始ViT的参数数量和MAC减少了一半,同时在ImageNet上从头开始训练时实现了3.0%以上的改进。通过直接在ImageNet上进行训练,它的性能也优于ResNet,达到了与MobileNet相当的性能。本文来自公众号CV技术指南的论文分享系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。论文:Tokens-to-Token.原创 2021-12-21 22:41:54 · 1387 阅读 · 0 评论 -
ICCV2021 | 简单有效的长尾视觉识别新方案:蒸馏自监督(SSD)
前言本文提出了一种概念上简单但特别有效的长尾视觉识别的多阶段训练方案,称为蒸馏自监督(Self Supervision to Distillation, SSD)。在三个长尾识别基准:ImageNet-LT、CIFAR100-LT和iNaturist 2018上取得了SOTA结果。在不同的数据集上,SSD比强大的LWS基准性能高出2.7%到4.5%。本文来自公众号CV技术指南的论文分享系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。论文:Sel.原创 2021-12-13 11:09:20 · 2974 阅读 · 0 评论 -
ICCV2021 | 用于视觉跟踪的学习时空型transformer
前言本文介绍了一个端到端的用于视觉跟踪的transformer模型,它能够捕获视频序列中空间和时间信息的全局特征依赖关系。在五个具有挑战性的短期和长期基准上实现了SOTA性能,具有实时性,比Siam R-CNN快6倍。本文来自公众号CV技术指南的论文分享系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。论文:Learning Spatio-Temporal Transformer for Visual Tracking代码:https://g.原创 2021-12-10 21:04:36 · 3089 阅读 · 0 评论 -
ICCV2021 | TOOD:任务对齐的单阶段目标检测
前言单阶段目标检测通常通过优化目标分类和定位两个子任务来实现,使用具有两个平行分支的头部,这可能会导致两个任务之间的预测出现一定程度的空间错位。本文提出了一种任务对齐的一阶段目标检测(TOOD),它以基于学习的方式显式地对齐这两个任务。TOOD在MS-CoCO上实现了51.1Ap的单模型单尺度测试。这大大超过了最近的单阶段检测器,如ATSS(47.7AP)、GFL(48.2AP)和PAA(49.0AP),它们的参数和FLOPs更少。本文来自公众号CV技术指南的论文分享系列关注公众号CV技术指南.原创 2021-12-07 19:47:35 · 4606 阅读 · 0 评论 -
计算机视觉中的transformer模型创新思路总结
前言本文回顾了ViT的结构,总结了计算机视觉中的transformer的主要改进思路:改进分块,改进位置编码,改进Encoder,增加Decoder。每个思路下都介绍了相关的论文,介绍了这些论文的提出出发点和改进思路。本文的目的不在于介绍transformer现在有哪些模型,而在于学习借鉴别人发现问题并改进的思路,从而在自己方向上提出合适且合理的改进。本文来自公众号CV技术指南的论文分享系列,技术总结系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。.原创 2021-12-03 18:33:10 · 1702 阅读 · 0 评论 -
ICCV2021 | 渐进采样式Vision Transformer
前言ViT通过简单地将图像分割成固定长度的tokens,并使用transformer来学习这些tokens之间的关系。tokens化可能会破坏对象结构,将网格分配给背景等不感兴趣的区域,并引入干扰信号。为了缓解上述问题,本文提出了一种迭代渐进采样策略来定位区分区域。在每次迭代中,当前采样步骤的嵌入被馈送到transformer编码层,并预测一组采样偏移量以更新下一步的采样位置。渐进抽样是可微的。当与视觉transformer相结合时,获得的PS-ViT网络可以自适应地学习到哪里去看。PS-Vi.原创 2021-12-01 17:14:56 · 2881 阅读 · 0 评论 -
ICCV2021 | Swin Transformer: 使用移位窗口的分层视觉Transformer
前言本文解读的论文是ICCV2021中的最佳论文,在短短几个月内,google scholar上有388引用次数,github上有6.1k star。本文来自公众号CV技术指南的论文分享系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。论文: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows代码:https://github. com/microso.原创 2021-11-28 15:24:27 · 2356 阅读 · 0 评论 -
ICCV2021 | SOTR:使用transformer分割物体
前言本文介绍了现有实例分割方法的一些缺陷,以及transformer用于实例分割的困难,提出了一个基于transformer的高质量实例分割模型SOTR。经实验表明,SOTR不仅为实例分割提供了一个新的框架,还在MS Coco数据集上超过了SOTA实例分割方法。本文来自公众号CV技术指南的论文分享系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。论文:SOTR: Segmenting Objects with Transformers代码.原创 2021-11-26 12:22:06 · 2787 阅读 · 0 评论 -
ML2021 | (腾讯)PatrickStar:通过基于块的内存管理实现预训练模型的并行训练
前言目前比较常见的并行训练是数据并行,这是基于模型能够在一个GPU上存储的前提,而当这个前提无法满足时,则需要将模型放在多个GPU上。现有的一些模型并行方案仍存在许多问题,本文提出了一种名为PatrickStar的异构训练系统。PatrickStar通过以细粒度方式管理模型数据来更有效地使用异构内存,从而克服了这些缺点。本文附上了PatrickStar的使用示例。PatrickStar与模型定义无关,在PyTorch脚本上添加几行代码可以带来端到端的加速。本文来自公众号CV技术指南的论文分享系.原创 2021-11-25 16:42:40 · 1489 阅读 · 0 评论 -
ICCV2021 | PnP-DETR:用Transformer进行高效的视觉分析
前言DETR首创了使用transformer解决视觉任务的方法,它直接将图像特征图转化为目标检测结果。尽管很有效,但由于在某些区域(如背景)上进行冗余计算,输入完整的feature maps的成本会很高。在这项工作中,论文将减少空间冗余的思想封装到一个新的轮询和池(Poll and Pool, PnP)采样模块中,该模块具有通用和即插即用的特点,利用该模块构建了一个端到端的PnP-DETR体系结构,该体系结构可以自适应地在空间上分配计算,以提高计算效率。本文来自公众号CV技术指南的论文分享.原创 2021-11-23 15:06:39 · 1659 阅读 · 0 评论 -
ICCV2021 | 医学影像等小数据集的非自然图像领域能否用transformer?
前言医学领域的数据集具有标注样本少、图像非自然的特点,transformer已经证明了在自然图像领域下的成功,而能否应用于医学领域等少量标注样本的非自然图像领域呢?本文研究比较了CNN和ViTs在三种不同初始化策略下在医学图像任务中的表现,研究了自监督预训练对医学图像领域的影响,并得出了三个结论。本文来自公众号CV技术指南的论文分享系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。代码:https://github.com/ChrisMat..原创 2021-11-21 11:23:49 · 2084 阅读 · 1 评论 -
ICCV2021 | Vision Transformer中相对位置编码的反思与改进
前言在计算机视觉中,相对位置编码的有效性还没有得到很好的研究,甚至仍然存在争议,本文分析了相对位置编码中的几个关键因素,提出了一种新的针对2D图像的相对位置编码方法,称为图像RPE(IRPE)。本文来自公众号CV技术指南的论文分享系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。https://github.com/microsoft/Cream/tree/main/iRPEBackgroundTransformer的核心是self-at.原创 2021-11-20 16:23:27 · 5520 阅读 · 3 评论