![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
RIS_REC
文章平均质量分 94
乄洛尘
2024年立下Flag, 6月份毕业(*^▽^*)~
如有问题请留言或私信,笔者看到后会第一时间回复呦~
论文阅读笔记系列保持不定期更新,稳定更新的话估计得等6月份之后啦~
展开
-
RIS 系列 See-Through-Text Grouping for Referring Image Segmentation 论文阅读笔记
基于传统的分组技术,本文提出一种方法来解决指代分割。提出的方法受循环卷积神经网络 convolutional-recurrent neural network (ConvRNN) 驱动,迭代地执行自顶向下的,对分割线索的自下而上的聚合过程。给定语言表达式,本文提出的方法学习去预测与其相关的每个像素,并驱动一个 See-through-Text Embedding Pixelwise (STEP) 热力图。通过学到的视觉-文本 co-embedding 得出像素水平的分割 masks。原创 2023-12-30 21:21:29 · 1551 阅读 · 4 评论 -
Ref 系列 UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 论文阅读笔记
基于指代的目标分割任务,有 指代图像分割 referring image segmentation (RIS)、少样本图像分割 few-shot image segmentation (FSS)、指代视频目标分割 referring video object segmentation (RVOS) 和视频目标分割 video object segmentation (VOS)。这些任务要么利用语言或 masks 标注作为指代去分割出特定的目标。原创 2023-12-29 21:25:36 · 1492 阅读 · 2 评论 -
RIS 系列 Mask Grounding for Referring Image Segmentation 论文阅读笔记
Referring Image Segmentation (RIS) 的定义,目前的 SOTA 方法仍然存在像素和词水平上的语言-图像模态鸿沟。主要原因:通常依赖于句子级别的语言特征用于语言-图像对齐;缺乏对细粒度视觉定位的监督。另外,由于弱的视觉和语言特征间的关联,因此需要更有效的推理去理解那些包含多个目标的复杂场景。于是本文引入 Mask Grounding 辅助任务来提升视觉定位的性能,Mask Grounding 直接适用于之前的模型。原创 2023-12-24 18:35:29 · 1708 阅读 · 2 评论 -
RIS 系列 Locate Then Segment: A Strong Pipeline for Referring Image Segmentation 论文阅读笔记
Referring image segmentation (RIS) 的定义。之前的方法未能显式地建模指代实例的定位信息,而是通常聚焦于设计隐式的特征交互机制来融合视觉特征从而直接生成最后的分割 mask。于是本文通过另外一个角度,通过先将其解耦合为 “Locate-Then-Segment” (LTS) 定位-分割” 的计划,LTS 首先提取和融合视觉-文本特征得到一个跨模态的表示,然后在视觉-文本特征上应用一个跨模特交互来定位到指代目标,最后采用一个轻量化的分割网络来生成 mask 结果。原创 2023-12-17 22:05:11 · 1042 阅读 · 0 评论 -
RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 论文阅读笔记
Referring Image Segmentation 指代图像分割旨在在像素水平上分割出自然表达式所指的特定目标。最近一些基于 Transformer 的方法凭借着注意力机制生成上下文 query,虽然很是成功,但是未能理解复杂表达式中的上下文。于是本文受到 masked autoencoder (MAE) 的启发提出 bidirectional token-masking autoencoder (BTMAE) 双向 token-masking 自动编码器。原创 2023-12-10 19:59:18 · 1077 阅读 · 4 评论 -
RIS 系列 MARIS: Referring Image Segmentation via Mutual-Aware Attention Features 论文阅读笔记
首先指出指代图像分割 Referring image segmentation (RIS) 的定义,现有方法的缺陷:可能会分割出显著性的区域,而非正确的区域。本文提出 MARIS,基于 Segment Anything Model (SAM),引入一个交互感知的注意力来增强两个并行分支的跨模态融合。具体来说,这一机制由视觉引导的注意力和语言引导的注意力(老演员了,多次出现的名词)双向建模视觉和语言特征的关系。相应地设计了一个 Mask 解码器进行分割。原创 2023-12-03 19:26:42 · 1055 阅读 · 0 评论 -
RIS 系列 Beyond One-to-One: Rethinking the Referring Image Segmentation 论文阅读笔记
开头指出 Referring image segmentation (RIS) 的定义。之前的方法非常依赖于假设先验:一个句子必须只描述图像中的一个目标,但这往往不适用于真实世界。因此,一些方法未能检测出没有目标或者多个目标的场景。于是本文从两个方面解决这个问题:首先提出一个 Dual Multi-Modal Interaction (DMMI) 网络,其中包含两个解码器分支:文本-图像解码器,文本 embedding 用于 query 视觉特征并定位到相应的目标;原创 2023-11-07 17:09:45 · 1717 阅读 · 5 评论 -
Zero-shot RIS SOTA:Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 论文阅读笔记
本文研究 zero-shot 指代图像分割,旨在没有训练标注的情况下,识别出与指代表达式最相关的目标。之前的方法利用预训练的模型,例如 CLIP,来对齐实例级别的 masks。然而 CLIP 仅考虑了图文对间的全局水平上的对齐,忽视了细粒度的匹配。于是本文引入 Text Augmented Spatial-aware (TAS) zero-shot 指代图像分割框架,无须训练且对任意的视觉编码器鲁棒。原创 2023-11-03 20:45:26 · 1162 阅读 · 0 评论 -
NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning
全景叙事检测及分割 Panoptic Narrative Detection (PND) and Segmentation (PNS) 旨在识别和定位图像中的多个用长自然语言描述的目标。本文提出一种联合的框架,称为 NICE 来共同学习这两种任务。现有的视觉定位任务通常使用两分支的思路,但由于多对多的对齐问题可能会造成识别冲突。原创 2023-10-22 21:40:19 · 171 阅读 · 0 评论 -
全景叙事定位 Towards Real-Time Panoptic Narrative Grounding by an End-to-End Grounding Network 论文阅读笔记
全景叙事定位 Panoptic Narrative Grounding (PNG) 旨在根据文本描述定位出图像中的相关目标区域。现有的方法主要基于两阶段的,其计算成本非常高。于是本文提出一阶段的网络用于实时的 PNG 任务,名为 End-to-End Panoptic Narrative Grounding network (EPNG),针对指代目标直接生成 masks。原创 2023-10-15 21:54:56 · 794 阅读 · 1 评论 -
开放目标检测Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 论文阅读笔记
本文提出一个开放目标检测器 Grounding DINO,采用基于 Transformer 的 DINO 框架+预训练,能够检测任意输入类别或表达式对应的目标。开放目标检测的关键在于引入语言到一个闭集的检测器中,从而实现开放的概念泛化。于是本文提出将闭集的检测器划分为三个阶段并提出一种轻量化的融合方法,包含一个特征增强器,一个语言引导的 query 选择,一个跨模态的检测器用于跨模态融合。之前的工作主要评估模型在新类别上的性能,而本文也提出在指代表达式理解进行评估。原创 2023-10-08 20:36:30 · 2153 阅读 · 4 评论 -
Language Adaptive Weight Generation for Multi-task Visual Grounding 论文阅读笔记
之前的方法通常以一种被动的方式利用视觉 Backbone,即以固定权重提取视觉特征,而没有表达式的参与。理想情况下,视觉 Backbone 应当主动根据表达式来提取视觉特征。于是本文基于语言自适应权重 Language Adaptive Weights(VG-LAW),提出一种主动感知视觉定位框架。通过不同表达式生成的动态权重将视觉 Backbone 作为一个特定表达式的特征提取器,不需要额外的跨模态交互模块。实验表明方法很有效。原创 2023-09-18 16:55:43 · 914 阅读 · 2 评论 -
Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension论文阅读
指代表达式理解 referring expression comprehension (REC) 通常需要大量的多粒度视觉-语言模态的信息来实现精确推理,此外一些难样本有着更多的信息。于是本文提出自定进度的多粒度跨模态交互建模 Self-paced Multi-grained Cross-modal Interaction Modeling。具体来说,设计一种基于 Transformer 的多粒度跨模态机制,提出一种自定进度的样本信息学习方法来增强网络对信息丰富的样本的学习能力。实验效果很好。原创 2023-09-16 18:45:52 · 433 阅读 · 0 评论 -
RIS 系列 Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation 论文阅读笔记
指代图像分割 Referring image segmentation (RIS) 旨在产生高质量的 mask,现有的方法总是需要采用迭代学习的方法,依赖于 RNNs 或堆叠的注意力层来提炼视觉-语言特征。但基于 RNN 的方法依赖于特定的编码器,基于注意力的方法收益很低。于是本文引入渐进式地学习多模态特征的方法,核心 idea 是利用一个持续更新的 query 作为目标的表示,并在每个迭代步中加强与 qeury 相关的多模态特征而弱化不相关的特征,因此能够逐渐从定位中心转移到分割中心。原创 2023-09-03 18:30:15 · 441 阅读 · 0 评论 -
REC 系列 Visual Grounding with Transformers 论文阅读笔记
本文提出基于 Transformer 的方法用于视觉定位。不像现有的先取出 proposals 后排序的方法,极度依赖于预训练的目标检测器,或者无 proposal 的框架方法,通过融合文本化的 embedding 更新一组离线的单阶段检测器。本文提出的方法 Visual Grounding with TRansformers VGTR 建立在 Transformer 框架之上,独立于预训练检测器和 word embedding 之外,用于学习语义区分性的视觉特征。实验达到了 SOTA 的性能。原创 2023-08-18 20:13:01 · 758 阅读 · 0 评论 -
RES 系列 GRES: Generalized Referring Expression Segmentation 论文阅读笔记
首先指出指代表达式分割 Referring Expression Segmentation (RES) 的定义,当前的经典 RES 数据集和方法一般仅支持单目标的表达式,即一个表达式对应一个目标,并未考虑多目标和无目标的表达式。于是本文提出一般性的指代表达式分割 Generalized Referring Expression Segmentation (GRES),使得表达式能够指向任意数量的目标类别。同时构建起第一个大尺度 GRES 数据集 gRefCOCO,包含多个目标、无目标、单个目标的表达式。原创 2023-08-13 18:54:24 · 1460 阅读 · 2 评论 -
论文Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation
参数高效微调 Parameter Efficient Tuning (PET) 在减少参数量的同时又能保有 SOTA 的性能,提供了友好的硬件资源。然而很少有研究关注稠密预测任务及多模态间的交互。本文研究指代图像分割 referring image segmentation RIS 中的高效参数微调问题。提出了一种自适应器 Bridger ,促进跨模态信息交换以及整合特征任务的信息到预训练模型中。同时设计了一种轻量化的解码器用于图像分割。实验效果很好。原创 2023-07-30 15:55:21 · 524 阅读 · 6 评论 -
清华、IDEA、港中文联合发表的 DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding论文阅读笔记
本文同时研究短语提取和定位 phrase extraction and grounding (PEG)(挖坑)的视觉定位问题。与之前在测试时就知道短语的方法相比,PEG 需要模型同时从图像中提取短语和定位目标。由于短语提取被视为 1D 文本分割问题,于是将 PEG 视为双端检测问题。提出 DQ-DETR,引入双 query 从图像和文本中探索不同的特征用于目标检测和短语 mask 分割。每个成对的双 queries 共享相同的位置但有着不同的内容。为了评估 PEG 的性能,提出了一种新的指标,属实挖坑工作。原创 2023-07-17 22:51:34 · 1343 阅读 · 1 评论 -
RIS 系列 RISCLIP: Referring Image Segmentation Framework using CLIP 论文阅读笔记
最近的一些方法推动了指代图像分割 Referring Image Segmentation (RIS),但需要在外部视觉定位数据集上进行大量预训练才能达到 SOTA 的结果。本文尝试使用 CLIP 突破这一限制:在融合自适应器和 Backbone 自适应器的作用下,采用残差结构自适应地冻结 CLIP 特征。在 3 个主要的 RIS 数据集上达到了 SOTA。原创 2023-07-15 19:29:15 · 788 阅读 · 3 评论 -
RIS 系列 TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer 论文阅读笔记
本文探索基于 Transformer 的网络用于视觉定位。之前方法通常解决的是视觉定位中的核心问题 ,例如采用手工设计的机制进行多模态融合及推理,缺点是方法复杂且在特定数据分布上容易过拟合。于是本文首先提出 TransVG,通过 Transformer 建立起多模态间的关联,并直接通过定位到指代目标来回归出 Box 的坐标。实验表明复杂的融合模块能被堆叠的 Transformer 编码器层替代。原创 2023-07-09 10:31:48 · 1089 阅读 · 2 评论 -
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记
多模态 Transformer 在视觉定位任务上能够很好的对齐图像和文本,但自注意力机制使得仅有编码器参与的 Transformer 框架,例如 TranVG(RIS 系列:TransVG: End-to-End Visual Grounding with Transformers 论文阅读笔记)中的计算复杂度很高。于是本文提出 Dynamic MDETR,将整个定位过程拆分为编码和解码两阶段。鉴于图像中高度的空间冗余,于是设计动态 Transformer 解码器,利用空间冗余先验来加快视觉定位过程。原创 2023-07-07 23:08:24 · 854 阅读 · 0 评论 -
焕新老方法 BUTD?WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation 论文阅读笔记
这篇文章标题很有吸引力,蕴含 2017 年一种用于 VQA 的很爆火的框架:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering,原因在于斩获了 2017 VQA challenge 的冠军,而后开创了两年的 follow。本篇文章不知道与 BUTD 有何关联呢?且听我慢慢道来。原创 2023-06-30 22:03:13 · 360 阅读 · 0 评论 -
RIS 系列:TransVG: End-to-End Visual Grounding with Transformers 论文阅读笔记
本文提出基于 Transformer 的网络:TransVG,用于视觉定位——根据输入的语言找到图像中的对应目标区域。当前 SOTA 的一阶段和二阶段模型依赖于复杂的手工模块来执行 query 推理和多模态融合。然而,多融合机制中某些模块的设计,例如 query 解耦和图像场景图使得模型很容易拟合特定的场景,从而限制视觉-语言上下文的充分交互。于是本文提出基于 Transformer 的多模态关联。原创 2023-06-23 14:29:56 · 793 阅读 · 4 评论 -
RIS系列:Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation 论文阅读笔记
首先指出 Referring image segmentation(RIS)的定义,然后表明问题:最近的方法大量使用 Transformer,其中注意力机制仅采用语言输入作为注意力的权重计算方式,而输出的特征中却并未显式地融合语言特征。介于其输出主要由视觉信息主导,限制了模型全面理解多模态信息,从而导致后续 mask 解码的不确定性。于是本文提出 Multi-Modal Mutual Attention (M33Dec) 来融合这两个模态的信息。原创 2023-06-07 15:18:32 · 863 阅读 · 1 评论 -
解决参考图像分割中的随机性问题:MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记
首先指出 Referring image segmentation(RIS)的定义,表明难点在于目标的类别的多样性以及表达式的无约束性。之前的方法主要关注于跨模态的特征对齐而未能解决这种固有的随机性问题。本文提出基于 CLIP 的 Multi-Mask Network(MMNet):首先联合图像和语言,利用注意力机制生成能够表示不同侧重点的多个语言表达式 queries;然后利用这些 queries 生成一系列相应的 masks,并依据重要性程度打分;最后对所有 masks 进行权重求和得到最终的结果。原创 2023-06-01 22:07:10 · 733 阅读 · 3 评论 -
RES 新的数据集 Advancing Referring Expression Segmentation Beyond Single Image 论文笔记
首先表明 Referring Expression Segmentation (RES) 的定义,指出现有的缺陷:现实世界场景中,无法确定语言描述的目标是否真实存在于当前的图像内。于是本文提出 Group-wise Referring Expression Segmentation (GRES),即分组参考图像分割:将 RES 拓展到一组相关图像中,同时表达式只描述这组子集图像内的目标。原创 2023-05-24 22:04:48 · 824 阅读 · 0 评论 -
零样本参考图像分割 ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension 论文阅读笔记
重新训练一个参考表达式理解模型 referring expression comprehension (ReC) 以适应新的目标域需要收集参考表达式和相应的 bounding boxes(BBox)。虽然大规模预训练模型在其他的目标域上可能会有用,但是以 Zero-shot 的方式应用在 ReC 这类复杂任务上效果不太好。本文提出一种 Zero-shot 模型 ReCLIP 用于 ReC,其中包含一个区域打分方法通过裁剪和模糊来对目标 Proposals 进行打分,还包含一个空间关系解析器用于应对不同的空间原创 2023-05-20 19:29:40 · 1100 阅读 · 5 评论 -
零样本参考图像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 论文笔记
首先给出参考图像分割 Referring Image Segmentation (RIS) 的定义,指出数据收集的困难。于是本文通过 CLIP 模型提出零样本的 RIS。建立 mask 引导的视觉编码器,用于捕捉全局和局部的上下文信息。利用离线 mask 生成技术得到输入图像中每个实例的 mask。引入一个全局-局部文本编码器编码整个句子的语义和目标名词短语的局部特征。实验表明效果很好甚至超过一些弱监督 RIS 方法。原创 2023-04-10 17:36:16 · 2391 阅读 · 3 评论 -
REC系列:Rethinking and Improving Feature Pyramids for One-Stage Referring Expression Comprehension论文笔记
首先点出参考表达式理解 Referring Expression Comprehension (REC) 的重要性,目前单阶段的方法通常将这一任务视为基于语言条件的目标检测任务,并设计多种融合策略、阶段以及检测头。然而这些方法大多忽略了多尺度特征的整合甚至仅采用单尺度的特征来定位目标。本文重新思考并优化了单阶段框架中的特征金字塔模型。原创 2023-04-07 12:36:30 · 486 阅读 · 0 评论 -
弱监督参考图像分割:Learning From Box Annotations for Referring Image Segmentation论文阅读笔记
最近一直在找论文看咩,奈何很多都是“花里胡哨”,嗯,就是结构设计的挺巧妙,没法通用呀~原创 2023-03-10 14:03:25 · 1431 阅读 · 3 评论 -
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记
目前的参考图像分割一般不去直接预测目标的 mask,而是作为一个多边形序列生成任务。本文提出来一种能直接预测精确的几何位置坐标的基于回归的解码器,摒弃了之前那种需要将坐标量化到某个固定格子上的做法。不仅在常规的数据集上表现很好,而且泛化到参考视频图像分割上仍然牛皮。原创 2023-03-02 23:21:46 · 1832 阅读 · 13 评论