Object discovery from motion-guided tokens

Abstract

这项工作引入了一种新颖的自动编码器架构 MoTok,用于无监督视频对象发现。通过利用运动引导标记化,该模型增强了 Transformer 架构中注意力机制的核心矢量量化过程。我们的方法允许出现可解释的中级特征,从而简化对象发现任务。对合成数据集和真实世界数据集的综合评估表明,如果解码器具有足够的容量,运动引导可以减轻对标签、光流或深度解码的需求,从而实现最先进的结果。所提出的方法有效地解决了对象背景模糊性的挑战,并提高了现实视频场景中的性能 [T4]、[T5]。

网络架构图

图2。提议的运动引导令牌(MoTok)框架的模型架构。MoTok是一个统一的视频对象发现框架,可以灵活地选择不同的解码器和重构空间。我们的框架有效地利用了运动和标记化之间的协同作用,并允许出现可解释的特定对象的中级功能。

methods

论文中提出的方法称为运动引导标记(MoTok)。它旨在通过利用运动提示和标记化来增强对象发现。以下是 MoTok 框架的关键组件:

  1. 运动引导标记化:该方法利用运动信号创建标记表示,简化基于颜色、纹理和位置等属性将像素分组到中级区域的过程。这有助于更有效地区分对象和背景。
  2. 联合训练:MoTok 使用运动提示和矢量量化联合训练槽表示。这种方法允许模
<think>好的,我需要回答用户关于“attribute-guided prompt generation”在机器学习或NLP中的概念和实现的问题。首先,我应该先理解这个概念的核心。根据用户提供的引用[3],提到在视觉语言模型中,通过属性引导的提示微调(Attribute-Guided Prompt Tuning)来增强零样本识别能力。这说明属性引导的提示生成是通过在提示中加入类别相关的视觉属性,以提供更精确的正则化,而不仅仅是使用类名。 接下来,我需要确定这个概念在NLP中的对应应用。可能类似于在文本任务中,除了使用类标签外,还加入属性描述,比如情感分析中的情感强度或具体方面。例如,在情感分类时,提示可能包括“情感强度高”或“针对服务的评价”这样的属性,帮助模型更准确地理解输入。 然后,关于实现方法,用户提到的引用[3]中的方法可能涉及在提示模板中插入可学习的属性相关token,这些token在训练过程中被优化。在NLP中,类似的做法可能是在提示中加入可训练的向量,这些向量代表不同的属性,通过反向传播调整这些向量以捕捉关键属性信息。 另外,引用[2]提到Petroni等人的工作,将知识探测视为填空测试,这可能与如何设计提示以引导模型生成特定属性相关的内容有关。比如,在生成任务中,通过属性描述来约束生成结果,如生成具有特定风格或主题的文本。 现在需要检查是否有遗漏的部分。用户可能想知道具体的实现步骤或已有研究案例。例如,在NLP中,如何构建属性引导的提示,是否需要额外的数据标注,或者如何与预训练模型结合。可能需要提到对比学习或对抗训练等技术来优化属性相关的提示。 最后,确保回答结构清晰,分点解释概念和实现,并引用提供的参考文献。同时,生成相关问题时要覆盖应用场景、挑战、与传统方法的区别等角度。</think>### Attribute-Guided Prompt Generation 的概念与实现 Attribute-Guided Prompt Generation(属性引导的提示生成)是一种通过**引入细粒度属性信息**来优化提示(prompt)的方法,旨在提升模型对任务的理解能力,尤其是在零样本或少样本场景中[^3]。其核心思想是:在传统基于类名的提示模板基础上,融入与目标相关的**属性描述**(如视觉特征、功能属性、语义关系等),从而为模型提供更精准的上下文指导。 #### 核心概念 1. **属性与类名的互补性** - 类名(如“狗”)提供高级语义,但可能无法区分子类别(如“长尾犬” vs “短尾犬”)[^3]。 - 属性(如“黑色毛发”“尖耳朵”)通过细节描述增强模型的判别能力。 2. **动态提示构建** 在提示模板中插入可学习的属性相关标记(learnable tokens),例如: $$ \text{“这是一张[属性1][属性2]的[类名]的图片”} $$ 其中 `[属性1]`、`[属性2]` 在训练时通过梯度下降优化,以捕捉关键属性特征。 #### 实现方法(以NLP为例) 1. **属性提取与嵌入** - 从文本数据中提取与任务相关的属性(如情感强度、实体类型),可通过规则或预训练模型(如BERT)实现。 - 将属性编码为向量,并与类名嵌入结合,形成增强型提示。 2. **端到端提示微调** ```python # 伪代码示例:基于属性增强的提示生成 class AttributePrompt(nn.Module): def __init__(self, attribute_dim): super().__init__() self.attribute_emb = nn.Embedding(num_attributes, attribute_dim) self.class_emb = nn.Embedding(num_classes, attribute_dim) self.context = nn.Parameter(torch.randn(attribute_dim)) # 可学习上下文 def forward(self, class_id, attribute_ids): class_vec = self.class_emb(class_id) attribute_vec = self.attribute_emb(attribute_ids).mean(dim=0) prompt = torch.cat([self.context, attribute_vec, class_vec]) return prompt ``` 通过联合优化上下文向量(`self.context`)和属性嵌入,模型能动态适配不同任务。 3. **零样本推理应用** 在未见过的类别上,通过人工定义属性(如“会飞”“有羽毛”)构建提示,例如: `“描述:[属性]会飞、有羽毛。类别:[类名]鸟”`,引导模型正确分类[^2]。 #### 关键优势 - **可解释性**:属性显式关联模型决策依据。 - **数据效率**:减少对标注数据的依赖,适合低资源场景[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值