论文阅读
文章平均质量分 93
fishfuck
一个人必须不停地写作,才能不被茫茫人海湮灭。
展开
-
论文阅读:VMamba: Visual State Space Model
卷积神经网络(CNNs)和ViTs是视觉表示学习的两个最受欢迎的基础模型。尽管CNNs在图像分辨率方面表现出显著的可扩展性,具有线性复杂度,但ViTs在拟合能力上超越了它们,尽管它们面临着二次方复杂度的挑战。仔细检查发现,。这一观察启发我们提出了一种新的架构,它继承了这些组件,同时提高了计算效率。为此,我们从最近引入的状态空间模型中汲取灵感,提出了视觉状态空间模型(VMamba),它在不牺牲全局感受野的情况下实现了线性复杂度。原创 2024-03-07 22:48:51 · 1168 阅读 · 1 评论 -
论文阅读:Segment Anything
在应用我们的解码器之前,我们首先在提示嵌入集合中插入一个可学习的输出token嵌入,它将在解码器的输出中使用,类似于[33]中的[CLASS]令牌。然后,token再次参与图像嵌入,我们将更新后的输出令牌嵌入传递给一个小的3层MLP,该MLP输出与放大的图像嵌入的通道维度相匹配的矢量。我们工作中的一个重要区别是,为可提示分割训练的模型可以在推理时通过充当更大系统中的组件来执行新的不同任务,例如,为了执行实例分割,可提示分割模型与现有的对象检测器相结合。以及(2)相同的结构,但使用表示“右下角”的学习嵌入。原创 2024-02-11 00:13:51 · 959 阅读 · 0 评论 -
论文阅读:Self-conditioned Image Generation via Generating Representations(RCG)
提出的表示条件图像生成(Representation-Conditioned image Generation,RCG),一个简单而有效的框架用于自适应图像生成。简而言之就是无附加条件生成相同分布的图片。原创 2024-01-30 00:24:29 · 1002 阅读 · 0 评论 -
论文阅读:ReCo Retrieve and Co-segment for Zero-shot Transfer
目前的语义分割面临着如下的挑战:(1)成本:收集人工像素级注释非常昂贵,限制了完全监督方法的使用;(2)灵活性:监督方法通常用有限的预定义类别列表进行训练,并且缺乏识别稀有或新类别(例如由自由形式文本描述的类别)的能力;(3)部署的复杂性:非监督分割方法极大地降低了标注成本,但仍然表现出要求标记的示例为预测分配名称的不便;原创 2024-01-30 00:23:13 · 1109 阅读 · 0 评论