论文阅读
文章平均质量分 94
fishfuck
一个人必须不停地写作,才能不被茫茫人海湮灭。
展开
-
论文阅读:3D Gaussian Splatting for Real-Time Radiance Field Rendering
辐射场方法最近彻底改变了用多张照片或视频捕获的场景的新颖视角合成。然而,要获得高视觉质量,仍然需要训练和渲染成本高昂的神经网络,而最近更快的方法不可避免地要牺牲速度来换取质量。对于无界和完整的场景(而不是孤立的对象)和1080p分辨率的渲染,目前还没有一种方法可以达到实时显示速率。我们引入了三个关键元素,使我们能够在保持有竞争力的训练时间的同时获得最先进的视觉质量,并重要的是允许在1080p分辨率下进行高质量的实时(≥30 fps)新颖视图合成。原创 2024-08-11 22:57:30 · 245 阅读 · 0 评论 -
论文阅读:Deformable DETR: Deformable Transformers for End-to-End Object Detection
最近提出了DETR,以消除对象检测中对许多手工设计组件的需求,同时表现出良好的性能。然而,由于Transformer注意力模块在处理图像特征 map 方面的局限性,它存在收敛慢和特征空间分辨率有限的问题。为了缓解这些问题,我们提出了Deformable DETR,其注意力模块只关注参考周围的一小组关键采样点。Deformable DETR可以在训练时间减少10倍的情况下实现比DETR更好的性能(尤其是在小物体上)。对COCO基准的广泛实验证明了我们方法的有效性。原创 2024-07-28 21:52:28 · 245 阅读 · 0 评论 -
论文阅读:(DETR)End-to-End Object Detection with Transformers
我们提出了一种将目标检测看作集合预测(set prediction)问题的新方法。我们的方法简化了目标检测的流水线,有效地消除了许多需要手工设计的组件,如非极大值抑制算法或锚框(anchor)生成算法这类需要根据任务显式编码的先验知识。新框架的主要组成部分被称为DEtection TRansformer或DETR,包括一个通过二部图匹配进行唯一预测的基于集合的全局损失,以及一个Transformer编码器-解码器结构。原创 2024-07-27 22:39:58 · 287 阅读 · 0 评论 -
论文阅读:T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy
提出了一种实用的开集目标检测模型T-Rex2。以往的基于文本提示的开集对象检测方法有效地封装了常见对象的抽象概念,但由于数据稀缺和描述性限制,难以实现稀有或复杂的对象表示。相反,视觉提示擅长通过具体的视觉例子来描述新奇的物体,但不能像文本提示那样有效地传达物体的抽象概念。认识到文本提示和视觉提示的互补优势和劣势,我们引入了T-Rex2,它通过对比学习在单个模型中协同这两个提示。T-Rex2接受各种格式的输入,包括文本提示、视觉提示以及两者的组合,因此它可以通过在两种提示模式之间切换来处理不同的场景。原创 2024-07-27 18:21:15 · 558 阅读 · 0 评论 -
论文阅读:Enhanced 3D Urban Scene Reconstruction and Point Cloud Densification using Gaussian Splatting
尽管基于大规模遥感图像的3D城市场景重建和建模对于数字孪生和智能城市等许多关键应用至关重要,但由于异构数据集和几何模型的不确定性,这是一个困难的任务。本文提出了一种基于高斯溅射的方法,用于3D城市场景建模和几何检索,贡献如下。首先,我们开发并实现了一种大规模3D城市场景建模的3D高斯溅射(3DGS)方法。其次,我们在提出的3DGS模型中设计了点云密集化方法,以提高城市场景3D几何提取的质量。原创 2024-07-20 21:57:42 · 874 阅读 · 0 评论 -
论文阅读:VMamba: Visual State Space Model
卷积神经网络(CNNs)和ViTs是视觉表示学习的两个最受欢迎的基础模型。尽管CNNs在图像分辨率方面表现出显著的可扩展性,具有线性复杂度,但ViTs在拟合能力上超越了它们,尽管它们面临着二次方复杂度的挑战。仔细检查发现,。这一观察启发我们提出了一种新的架构,它继承了这些组件,同时提高了计算效率。为此,我们从最近引入的状态空间模型中汲取灵感,提出了视觉状态空间模型(VMamba),它在不牺牲全局感受野的情况下实现了线性复杂度。原创 2024-03-07 22:48:51 · 1329 阅读 · 1 评论 -
论文阅读:Segment Anything
在应用我们的解码器之前,我们首先在提示嵌入集合中插入一个可学习的输出token嵌入,它将在解码器的输出中使用,类似于[33]中的[CLASS]令牌。然后,token再次参与图像嵌入,我们将更新后的输出令牌嵌入传递给一个小的3层MLP,该MLP输出与放大的图像嵌入的通道维度相匹配的矢量。我们工作中的一个重要区别是,为可提示分割训练的模型可以在推理时通过充当更大系统中的组件来执行新的不同任务,例如,为了执行实例分割,可提示分割模型与现有的对象检测器相结合。以及(2)相同的结构,但使用表示“右下角”的学习嵌入。原创 2024-02-11 00:13:51 · 1017 阅读 · 0 评论 -
论文阅读:Self-conditioned Image Generation via Generating Representations(RCG)
提出的表示条件图像生成(Representation-Conditioned image Generation,RCG),一个简单而有效的框架用于自适应图像生成。简而言之就是无附加条件生成相同分布的图片。原创 2024-01-30 00:24:29 · 1035 阅读 · 0 评论 -
论文阅读:ReCo Retrieve and Co-segment for Zero-shot Transfer
目前的语义分割面临着如下的挑战:(1)成本:收集人工像素级注释非常昂贵,限制了完全监督方法的使用;(2)灵活性:监督方法通常用有限的预定义类别列表进行训练,并且缺乏识别稀有或新类别(例如由自由形式文本描述的类别)的能力;(3)部署的复杂性:非监督分割方法极大地降低了标注成本,但仍然表现出要求标记的示例为预测分配名称的不便;原创 2024-01-30 00:23:13 · 1131 阅读 · 0 评论