乄洛尘-CSDN博客

原创 RIS 系列 See-Through-Text Grouping for Referring Image Segmentation 论文阅读笔记

基于传统的分组技术，本文提出一种方法来解决指代分割。提出的方法受循环卷积神经网络 convolutional-recurrent neural network (ConvRNN) 驱动，迭代地执行自顶向下的，对分割线索的自下而上的聚合过程。给定语言表达式，本文提出的方法学习去预测与其相关的每个像素，并驱动一个 See-through-Text Embedding Pixelwise (STEP) 热力图。通过学到的视觉-文本 co-embedding 得出像素水平的分割 masks。

2023-12-30 21:21:29 1498 4

原创 Ref 系列 UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 论文阅读笔记

基于指代的目标分割任务，有指代图像分割 referring image segmentation (RIS)、少样本图像分割 few-shot image segmentation (FSS)、指代视频目标分割 referring video object segmentation (RVOS) 和视频目标分割 video object segmentation (VOS)。这些任务要么利用语言或 masks 标注作为指代去分割出特定的目标。

2023-12-29 21:25:36 1410 2

原创 RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 论文阅读

首先指出 Referring Remote Sensing Image Segmentation (RRSIS) 指代遥感目标分割的粗略含义，与 RIS 一致，但是需要在航空图像中实现。于是本文引入一种旋转的多尺度交互网络 Rotated Multi-Scale Interaction Network (RMSIN)，其整合了一种内部尺度交互模块 Intra-scale Interaction Module (IIM) 来解决多尺度且细粒度的细节信息，以及一种跨尺度交互模块 Cross-scale Inte

2023-12-25 19:09:46 1370 14

原创 RIS 系列 Mask Grounding for Referring Image Segmentation 论文阅读笔记

Referring Image Segmentation (RIS) 的定义，目前的 SOTA 方法仍然存在像素和词水平上的语言-图像模态鸿沟。主要原因：通常依赖于句子级别的语言特征用于语言-图像对齐；缺乏对细粒度视觉定位的监督。另外，由于弱的视觉和语言特征间的关联，因此需要更有效的推理去理解那些包含多个目标的复杂场景。于是本文引入 Mask Grounding 辅助任务来提升视觉定位的性能，Mask Grounding 直接适用于之前的模型。

2023-12-24 18:35:29 1492

原创 RIS 系列 Locate Then Segment: A Strong Pipeline for Referring Image Segmentation 论文阅读笔记

Referring image segmentation (RIS) 的定义。之前的方法未能显式地建模指代实例的定位信息，而是通常聚焦于设计隐式的特征交互机制来融合视觉特征从而直接生成最后的分割 mask。于是本文通过另外一个角度，通过先将其解耦合为 “Locate-Then-Segment” (LTS) 定位-分割” 的计划，LTS 首先提取和融合视觉-文本特征得到一个跨模态的表示，然后在视觉-文本特征上应用一个跨模特交互来定位到指代目标，最后采用一个轻量化的分割网络来生成 mask 结果。

2023-12-17 22:05:11 1005

原创我的创作纪念日-第四年

不知不觉，CSDN 写博客已经四年了，也伴随了我读研读博的绝大多数时间。最多的时候，还是想记录下自己所走过的路程吧，然后留给后人一点经验借鉴。等博士毕业之后，如果有空间时间，还是希望每周能够完成一篇优质博文吧，给后人以启发。

2023-12-12 10:51:38 943

原创 RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 论文阅读笔记

Referring Image Segmentation 指代图像分割旨在在像素水平上分割出自然表达式所指的特定目标。最近一些基于 Transformer 的方法凭借着注意力机制生成上下文 query，虽然很是成功，但是未能理解复杂表达式中的上下文。于是本文受到 masked autoencoder (MAE) 的启发提出 bidirectional token-masking autoencoder (BTMAE) 双向 token-masking 自动编码器。

2023-12-10 19:59:18 1053 4

原创 RIS 系列 MARIS: Referring Image Segmentation via Mutual-Aware Attention Features 论文阅读笔记

首先指出指代图像分割 Referring image segmentation (RIS) 的定义，现有方法的缺陷：可能会分割出显著性的区域，而非正确的区域。本文提出 MARIS，基于 Segment Anything Model (SAM)，引入一个交互感知的注意力来增强两个并行分支的跨模态融合。具体来说，这一机制由视觉引导的注意力和语言引导的注意力（老演员了，多次出现的名词）双向建模视觉和语言特征的关系。相应地设计了一个 Mask 解码器进行分割。

2023-12-03 19:26:42 997

原创大一统模型 Universal Instance Perception as Object Discovery and Retrieval 论文阅读笔记

所有的实例感知任务旨在发现利用 queries 查询到的目标，例如类别名、语言表达式、目标标注，但这一领域被划分为多个独立的子任务。于是本文提出了一种统一的实例感知模型 UNINEXT。UNINEXT 将多个实例感知任务划分为一个统一的目标发现和检索过程，通过改变输入的 promots 能够弹性地感知不同类型的目标。于是有一些好处：不同任务的数据和标签词汇能够用于训练统一的模型，而且有益于那些缺乏训练数据的任务；参数有效性，能够降低冗余的计算。

2023-11-25 19:35:45 1848 5

原创 VL 任务 The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task 论文阅读笔记

思维链的效果在语言任务中发挥了重要作用，特别是在需要复杂的感知和推理的视觉-语言任务中。基于人类处理信号的过程，本文提出 “描述后再决定” 的策略。这一策略提升了大概 50% 的性能，为视觉-语言中的推理任务奠定了坚实的基础。

2023-11-19 19:16:23 103

原创 RIS 系列 Beyond One-to-One: Rethinking the Referring Image Segmentation 论文阅读笔记

开头指出 Referring image segmentation (RIS) 的定义。之前的方法非常依赖于假设先验：一个句子必须只描述图像中的一个目标，但这往往不适用于真实世界。因此，一些方法未能检测出没有目标或者多个目标的场景。于是本文从两个方面解决这个问题：首先提出一个 Dual Multi-Modal Interaction (DMMI) 网络，其中包含两个解码器分支：文本-图像解码器，文本 embedding 用于 query 视觉特征并定位到相应的目标；

2023-11-07 17:09:45 1623 5

原创 Zero-shot RIS SOTA：Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 论文阅读笔记

本文研究 zero-shot 指代图像分割，旨在没有训练标注的情况下，识别出与指代表达式最相关的目标。之前的方法利用预训练的模型，例如 CLIP，来对齐实例级别的 masks。然而 CLIP 仅考虑了图文对间的全局水平上的对齐，忽视了细粒度的匹配。于是本文引入 Text Augmented Spatial-aware (TAS) zero-shot 指代图像分割框架，无须训练且对任意的视觉编码器鲁棒。

2023-11-03 20:45:26 1088

原创开放词汇视觉定位 OV-VG: A Benchmark for Open-Vocabulary Visual Grounding 论文笔记

开放词汇检测旨在检测那些未出现在预定词汇中的目标，类似的任务有视觉定位 Visual Grounding (VG)。然而当前的基础模型虽然在很多视觉语言任务上表现很好，但是在开放视觉定位 open-vocabulary visual grounding (OV-VG) 上还没有拿得出手的工作。

2023-10-29 19:22:13 1003 1

原创 NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning

全景叙事检测及分割 Panoptic Narrative Detection (PND) and Segmentation (PNS) 旨在识别和定位图像中的多个用长自然语言描述的目标。本文提出一种联合的框架，称为 NICE 来共同学习这两种任务。现有的视觉定位任务通常使用两分支的思路，但由于多对多的对齐问题可能会造成识别冲突。

2023-10-22 21:40:19 150

原创全景叙事定位 Towards Real-Time Panoptic Narrative Grounding by an End-to-End Grounding Network 论文阅读笔记

全景叙事定位 Panoptic Narrative Grounding (PNG) 旨在根据文本描述定位出图像中的相关目标区域。现有的方法主要基于两阶段的，其计算成本非常高。于是本文提出一阶段的网络用于实时的 PNG 任务，名为 End-to-End Panoptic Narrative Grounding network (EPNG)，针对指代目标直接生成 masks。

2023-10-15 21:54:56 755 1

原创开放目标检测Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 论文阅读笔记

本文提出一个开放目标检测器 Grounding DINO，采用基于 Transformer 的 DINO 框架+预训练，能够检测任意输入类别或表达式对应的目标。开放目标检测的关键在于引入语言到一个闭集的检测器中，从而实现开放的概念泛化。于是本文提出将闭集的检测器划分为三个阶段并提出一种轻量化的融合方法，包含一个特征增强器，一个语言引导的 query 选择，一个跨模态的检测器用于跨模态融合。之前的工作主要评估模型在新类别上的性能，而本文也提出在指代表达式理解进行评估。

2023-10-08 20:36:30 1725 4

原创 Transformer 系列 Interpret Vision Transformers as ConvNets with Dynamic Convolutions 论文阅读笔记

在 Vision Transformer 和 CNNs 间总存在争论：哪个网络好。而本文将 Vision Transformer 视为带动态卷积的 CNNs，这能够将现有的 Transformer 和动态 CNNs 统一为一个框架并逐点比较它们的设计。从两个方面来论证上述的研究：检查了 vision Transformer 中 softmax 结构，发现其能够被广泛使用的 CNNs 模块代替，例如 ReLU，Layer Normalization，收敛速度更快，性能更高；

2023-10-01 21:57:09 537 1

原创 Language Adaptive Weight Generation for Multi-task Visual Grounding 论文阅读笔记

之前的方法通常以一种被动的方式利用视觉 Backbone，即以固定权重提取视觉特征，而没有表达式的参与。理想情况下，视觉 Backbone 应当主动根据表达式来提取视觉特征。于是本文基于语言自适应权重 Language Adaptive Weights（VG-LAW），提出一种主动感知视觉定位框架。通过不同表达式生成的动态权重将视觉 Backbone 作为一个特定表达式的特征提取器，不需要额外的跨模态交互模块。实验表明方法很有效。

2023-09-18 16:55:43 883 2

原创 Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension论文阅读

指代表达式理解 referring expression comprehension (REC) 通常需要大量的多粒度视觉-语言模态的信息来实现精确推理，此外一些难样本有着更多的信息。于是本文提出自定进度的多粒度跨模态交互建模 Self-paced Multi-grained Cross-modal Interaction Modeling。具体来说，设计一种基于 Transformer 的多粒度跨模态机制，提出一种自定进度的样本信息学习方法来增强网络对信息丰富的样本的学习能力。实验效果很好。

2023-09-16 18:45:52 414

原创 VL系列 Exchanging-based Multimodal Fusion with Transformer 论文阅读笔记

最近有提出基于交换的方法用于视觉-视觉融合，旨在交换学习到的 embedding 到另一个模态，然而大多数方法将多模态输入特征投影到低维空间中且不能应用于序列数据。于是本文提出一种基于交换多模态 Transformer 模型 MuSE 用于文本-视觉融合。首先使用两个独立的编码器将多模态特征映射到低维空间上，然后应用两个解码器来归一化 embedding 并将其推入到相同的空间。

2023-09-10 20:23:53 1131 19

原创 RIS 系列 Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation 论文阅读笔记

指代图像分割 Referring image segmentation (RIS) 旨在产生高质量的 mask，现有的方法总是需要采用迭代学习的方法，依赖于 RNNs 或堆叠的注意力层来提炼视觉-语言特征。但基于 RNN 的方法依赖于特定的编码器，基于注意力的方法收益很低。于是本文引入渐进式地学习多模态特征的方法，核心 idea 是利用一个持续更新的 query 作为目标的表示，并在每个迭代步中加强与 qeury 相关的多模态特征而弱化不相关的特征，因此能够逐渐从定位中心转移到分割中心。

2023-09-03 18:30:15 422

原创 DETR 系列 Mask Frozen-DETR: High Quality Instance Segmentation with One GPU 论文阅读笔记

本文旨在研究建立一个仅需最小训练时间和 GPU 的实例分割器，Mask Frozen-DETR，能够将任何基于 DETR 的目标检测模型转化为一个实例分割模型。提出的方法仅需训练附加的轻量化 mask 网络，通过一个冻结的基于 DETR 的目标检测器在 Bounding box 内预测实例 mask。在 COCO 数据集上效果很好，仅需单张 V100 16G 卡即可进行训练。

2023-08-27 19:45:18 829 9

原创 REC 系列 Visual Grounding with Transformers 论文阅读笔记

本文提出基于 Transformer 的方法用于视觉定位。不像现有的先取出 proposals 后排序的方法，极度依赖于预训练的目标检测器，或者无 proposal 的框架方法，通过融合文本化的 embedding 更新一组离线的单阶段检测器。本文提出的方法 Visual Grounding with TRansformers VGTR 建立在 Transformer 框架之上，独立于预训练检测器和 word embedding 之外，用于学习语义区分性的视觉特征。实验达到了 SOTA 的性能。

2023-08-18 20:13:01 705

原创 RES 系列 GRES: Generalized Referring Expression Segmentation 论文阅读笔记

首先指出指代表达式分割 Referring Expression Segmentation (RES) 的定义，当前的经典 RES 数据集和方法一般仅支持单目标的表达式，即一个表达式对应一个目标，并未考虑多目标和无目标的表达式。于是本文提出一般性的指代表达式分割 Generalized Referring Expression Segmentation (GRES)，使得表达式能够指向任意数量的目标类别。同时构建起第一个大尺度 GRES 数据集 gRefCOCO，包含多个目标、无目标、单个目标的表达式。

2023-08-13 18:54:24 1205 2

原创 VL 模型 Open-Set Domain Adaptation with Visual-Language Foundation Models 论文阅读笔记

无监督域适应在知识迁移中很管用。由于目标域标签的缺失和一些未知类别的存在，开放域适应 open-set domain adaptation (ODA) 是个不错的解决办法。现有的 ODA 方法旨在解决源域和目标域的分布迁移问题，而大多数方法微调那些训练在 ImageNet 上的源域模型。最近的视觉语言基础模型 visual-language foundation models (VLFM)，例如 CLIP 对大多数迁移分布鲁棒，直觉上应该能够提升 ODA 的性能。

2023-08-06 19:06:56 974

原创论文Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation

参数高效微调 Parameter Efficient Tuning (PET) 在减少参数量的同时又能保有 SOTA 的性能，提供了友好的硬件资源。然而很少有研究关注稠密预测任务及多模态间的交互。本文研究指代图像分割 referring image segmentation RIS 中的高效参数微调问题。提出了一种自适应器 Bridger ，促进跨模态信息交换以及整合特征任务的信息到预训练模型中。同时设计了一种轻量化的解码器用于图像分割。实验效果很好。

2023-07-30 15:55:21 457 6

原创清华、IDEA、港中文联合发表的 DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding论文阅读笔记

本文同时研究短语提取和定位 phrase extraction and grounding (PEG)（挖坑）的视觉定位问题。与之前在测试时就知道短语的方法相比，PEG 需要模型同时从图像中提取短语和定位目标。由于短语提取被视为 1D 文本分割问题，于是将 PEG 视为双端检测问题。提出 DQ-DETR，引入双 query 从图像和文本中探索不同的特征用于目标检测和短语 mask 分割。每个成对的双 queries 共享相同的位置但有着不同的内容。为了评估 PEG 的性能，提出了一种新的指标，属实挖坑工作。

2023-07-17 22:51:34 1182 1

原创 RIS 系列 RISCLIP: Referring Image Segmentation Framework using CLIP 论文阅读笔记

最近的一些方法推动了指代图像分割 Referring Image Segmentation (RIS)，但需要在外部视觉定位数据集上进行大量预训练才能达到 SOTA 的结果。本文尝试使用 CLIP 突破这一限制：在融合自适应器和 Backbone 自适应器的作用下，采用残差结构自适应地冻结 CLIP 特征。在 3 个主要的 RIS 数据集上达到了 SOTA。

2023-07-15 19:29:15 715 3

原创 [Bug 记录] Pycharm 无法导入 _C，相对、绝对路径都报错

在重新配置好脚本执行器里面的环境后，果然能顺利运行。经验教训：在项目环节中途变更时，一定要检查下脚本执行器里面的是不是也改了。。。。

2023-07-13 16:05:59 1076

原创 RIS 系列 TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer 论文阅读笔记

本文探索基于 Transformer 的网络用于视觉定位。之前方法通常解决的是视觉定位中的核心问题，例如采用手工设计的机制进行多模态融合及推理，缺点是方法复杂且在特定数据分布上容易过拟合。于是本文首先提出 TransVG，通过 Transformer 建立起多模态间的关联，并直接通过定位到指代目标来回归出 Box 的坐标。实验表明复杂的融合模块能被堆叠的 Transformer 编码器层替代。

2023-07-09 10:31:48 995 2

原创 Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

多模态 Transformer 在视觉定位任务上能够很好的对齐图像和文本，但自注意力机制使得仅有编码器参与的 Transformer 框架，例如 TranVG（RIS 系列：TransVG: End-to-End Visual Grounding with Transformers 论文阅读笔记）中的计算复杂度很高。于是本文提出 Dynamic MDETR，将整个定位过程拆分为编码和解码两阶段。鉴于图像中高度的空间冗余，于是设计动态 Transformer 解码器，利用空间冗余先验来加快视觉定位过程。

2023-07-07 23:08:24 811

原创焕新老方法 BUTD？WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation 论文阅读笔记

这篇文章标题很有吸引力，蕴含 2017 年一种用于 VQA 的很爆火的框架：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering，原因在于斩获了 2017 VQA challenge 的冠军，而后开创了两年的 follow。本篇文章不知道与 BUTD 有何关联呢？且听我慢慢道来。

2023-06-30 22:03:13 341

原创 RIS 系列：TransVG: End-to-End Visual Grounding with Transformers 论文阅读笔记

本文提出基于 Transformer 的网络：TransVG，用于视觉定位——根据输入的语言找到图像中的对应目标区域。当前 SOTA 的一阶段和二阶段模型依赖于复杂的手工模块来执行 query 推理和多模态融合。然而，多融合机制中某些模块的设计，例如 query 解耦和图像场景图使得模型很容易拟合特定的场景，从而限制视觉-语言上下文的充分交互。于是本文提出基于 Transformer 的多模态关联。

2023-06-23 14:29:56 681 4

原创 DETR 系列有了新发现？DETRs with Hybrid Matching 论文阅读笔记

一对一匹配是 DETR 建立端到端训练的关键，以至目标检测不再需要 NMS了。然而更少的 queries 被赋值为正样本，导致一对一匹配显著减低了正样本的有效训练。于是提出混合匹配计划：在训练中结合原始的一对一匹配分支和辅助的一对多匹配分支。在推理过程中，仅采用原始的一对一匹配分支，维持端到端的优点以及 DETR 相同推理效率的同时，提高精度。本文提出的方法名为 H-DETR，提升了一系列包括 Deformable-DETR、PETRv2、PETR、TransTrack 等方法在大量视觉任务上的表现。

2023-06-18 21:06:55 2155 7

原创华为又开始放大招了？CV新架构：VanillaNet: the Power of Minimalism in Deep Learning 论文阅读笔记

纵观整个 Abstract，没啥具体内容，就是说本文提出的 VanillaNet 能够一手左勾拳 ResNet，右勾手 Swim-Transformer 等。主要原因在于避免了超深、捷径、自注意力机制的引入，也没有复杂的激活函数。

2023-06-16 19:14:14 489 1

原创 VALSE 2023 无锡线下参会个人总结 6月12日-3

VALSE 2023 无锡线下参会个人总结 6月12日-3

2023-06-15 14:40:57 1456 6

原创 VALSE 2023 无锡线下参会个人总结 6月11日-2

VALSE 2023 无锡线下参会个人总结 6月11日-2

2023-06-14 19:52:18 1416 2

原创 VALSE 2023 无锡线下参会个人总结 6月10日-1

VALSE 2023 无锡线下参会个人总结 6月10日-1

2023-06-14 15:14:40 1124

原创 RIS系列：Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation 论文阅读笔记

首先指出 Referring image segmentation（RIS）的定义，然后表明问题：最近的方法大量使用 Transformer，其中注意力机制仅采用语言输入作为注意力的权重计算方式，而输出的特征中却并未显式地融合语言特征。介于其输出主要由视觉信息主导，限制了模型全面理解多模态信息，从而导致后续 mask 解码的不确定性。于是本文提出 Multi-Modal Mutual Attention (M33Dec) 来融合这两个模态的信息。

2023-06-07 15:18:32 742 1

原创解决参考图像分割中的随机性问题：MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记

首先指出 Referring image segmentation（RIS）的定义，表明难点在于目标的类别的多样性以及表达式的无约束性。之前的方法主要关注于跨模态的特征对齐而未能解决这种固有的随机性问题。本文提出基于 CLIP 的 Multi-Mask Network（MMNet）：首先联合图像和语言，利用注意力机制生成能够表示不同侧重点的多个语言表达式 queries；然后利用这些 queries 生成一系列相应的 masks，并依据重要性程度打分；最后对所有 masks 进行权重求和得到最终的结果。

2023-06-01 22:07:10 688 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

test_record_images.md

libdarknet.so

cu101+torch_cluster-1.5.4+scatter-2.0.4+sparse-0.6.1+spline_conv+torch140+cp37

批量处理程序.PY

Yale人脸图像库

自动关机助手

空空如也