计算机视觉每日论文-CSDN博客

原创 CV每日论文--2024.5.23

当前的人脸重建和交换方法主要依赖于GAN框架,但最近人们更多关注于预训练的扩散模型,因为它们具有更强大的生成能力。在多个不同图像领域的数据集上进行的全面实验表明,OmniGlue相比可直接比较的参考模型,在未见过领域上取得了20.9%的性能提升。总之,OmniGlue是一种基于基础模型知识的通用图像匹配方法,在新领域的泛化能力上表现良好,为实际应用提供了新的可能性。总的来说,这篇文章提出了两种创新的方法,在保持生成质量的同时大幅提高了概念驱动的文本到图像生成的效率。

2024-05-23 10:47:33 650

原创 CV每日论文--2024.5.22

3. 本文提出了一种根本不同的方法,该方法基于观察到自然视频的时空切片具有类似于自然图像的特征。该方法简单而零样本,利用预训练的文本到图像和文本到声谱图的扩散模型,它们在共享的潜在空间中进行操作。与以前的通用NeRF方法相比,MVSGaussian实现了实时渲染,每个场景的合成质量更好,通常只需要几分钟的微调和每个图像几秒钟的渲染时间。3) 为支持快速的场景特定微调,我们引入了一种多视角几何一致性聚合策略,有效地聚合通用模型生成的点云作为每个场景优化的初始化。中文标题：多视图立体的快速广义高斯泼溅重建。

2024-05-23 10:46:08 369

原创 CV每日论文--2024.5.21

这种方法既具有NeRFs在不同视角上的更高PSNR、SSIM和LPIPS性能,以及更紧凑的表示优势,又具有GS实时渲染和易于修改表示的优势。针对这一数据集,我们提出了PSG4DFormer - 一种基于Transformer的模型,可以预测全景分割掩模、跟踪掩模的时间变化,并通过关系组件生成相应的场景图。然而,GS方法的渲染速度要快得多。为了促进这一新兴研究领域,我们构建了一个包含3K个RGB-D视频、总计1M帧的丰富PSG-4D数据集,每帧都有4D全景分割掩模和精细的动态场景图标签。

2024-05-21 09:08:11 496

原创 CV每日论文--2024.5.20

我们的方法旨在纠正2D绘图的不一致性,以恢复合理的3D结构,使新的绘图结果能够彼此协调一致。我们的工作流程包括用户友好的注释工具、相机姿态估计和图像变形,从而恢复密集的3D结构表征。：在这项工作中,我们探索了从非几何一致的卡通和动漫手绘图像中恢复潜在的3D结构。然而,人类仍能从这些不一致的输入中感知3D场景。：3D重建技术的进步使得高质量的3D捕捉成为可能，但创建一个3D场景通常需要用户收集数百到数千张图像。这些生成的视角可以作为输入,使用强大的3D重建技术来产生3D表示,并实时从任何视角进行渲染。

2024-05-21 09:06:38 325

原创 CV每日论文--2024.5.17

这些VFM,如CLIP、DINOv2和SAM,通过不同的训练目标展现了各自的特点,适用于不同的下游任务。为了追求最高效的硬件支持,研究人员评估了多种架构在多教师蒸馏管道中的表现,最终开发出了一种新颖的E-RADIO架构,其性能超越了前代模型,计算效率也至少是教师模型的7倍。将这两个新组件整合在"StoryDiffusion"框架中,可以使用一致的图像或视频描述基于文本的故事,生成丰富多样的内容。重新审视了卷积神经网络在特征检测、提取和匹配方面的基本设计,满足了快速和稳健的算法在资源受限设备上使用的需求。

2024-05-17 09:26:32 562

原创 CV每日论文--2024.5.16

我们的实验结果表明，通过从训练中排除高度模糊的数据，可以提高最先进的行人检测器在LAMR、精度和F1分数等模型性能上的表现，同时节省训练时间和注释成本。在训练的早期阶段，模型主要学习识别数据中一些"容易学习"的判别模式。基于这些发现，我们提出了一种课程表的方法，其中模型始终利用每个学习阶段的所有训练数据，但首先暴露于每个示例中的"容易学习"模式，然后逐渐引入更难的模式。通过广泛的实验，我们在PASCAL-$5^i$和COCO-$20^i$数据集上验证了我们方法的性能，取得了在FSS方面的最先进结果。

2024-05-17 09:25:21 720

原创 CV每日论文--2024.5.15

为了量化这些注入的高频信息,作者还引入了一种称为Frequency Spectrum Distribution Similarity (FSDS)的图像对图像的度量方法,它可以捕捉传统度量忽略的细微差别。LoRAdapter是一种高效、强大且与架构无关的方法,可以用于调节文本到图像扩散模型,在生成过程中实现细粒度的控制调节,并且优于现有的最先进方法。：这篇论文介绍了一种新的可学习提示调整方法,该方法超越了仅对视觉语言模型进行微调的传统方法,成为一种潜在的资源高效替代方案。

2024-05-16 09:21:39 385

原创 CV每日论文--2024.5.14

将单张图像转换为可编辑的动态3D模型并生成视频，是单张图像到3D表示或图像的3D重建研究领域中的新方向和变革。结合我们提出的可重新编辑的动作分析和控制算法，我们可以实现比目前最先进项目更好的性能，包括在构建3D模型的精确动作控制和生成具有输入文本指令的稳定语义连续的无限时长3D视频方面。该项目的代码是开源的。尽管近年来，基于学习的网格去噪方法取得了显著进展，但它们的网络设计通常存在两个主要缺点：依赖于单一的几何表示，无法捕捉网格的多方面属性，并且缺乏有效的全局特征聚合，限制了对网格综合结构的充分理解。

2024-05-16 09:20:24 440

原创 CV每日论文--2024.5.13

通过对潜在的时空空间进行标记化，并结合可学习的占位符，如[nextline]和[nextframe]标记，Lumina-T2X在各种时空分辨率下无缝地统一了不同模态的表示。我们的实验结果表明，随着自编码器的改进，我们的方法不断提高，并在VFI领域实现了最先进的性能，展现出进一步增强的巨大潜力。我们的方法将扩散提炼视为一种成对图像到图像转换任务，利用扩散模型的ODE轨迹中的噪声到图像的映射。此外，我们改进了扩散模型，构建了一个多尺度鉴别器，并引入了文本对齐损失，以构建一个高效的条件GAN模型。

2024-05-14 09:04:33 792

原创 CV每日论文--2024.5.10

具体而言,我们开发了一种新的排名算法"广义加权页面排名(G-WPR)"来识别冗余标记,并提出了一种基于相似性的恢复方法来恢复卷积操作的标记。广泛的评估结果表明,AT-EDM在提高效率方面表现出色,例如,与Stable Diffusion XL相比,可节省38.8%的FLOPs,并提高了1.53倍的速度,同时保持了与完整模型几乎相同的FID和CLIP分数。：扩散模型在生成高质量和多样化图像方面取得了出色的表现,但其卓越性能是以昂贵的架构设计为代价的,特别是广泛使用注意力模块。

2024-05-14 09:02:56 799

原创 CV每日论文--2024.5.9

基于这些洞察,我们将触觉信号注册到捕获的视觉场景中,并训练一个条件扩散模型,用于从神经辐射场渲染的RGB-D图像生成相应的触觉信号。为了评估这种方法,我们收集了一个新的TaRF数据集,其包含更丰富的触觉采样和与之配对的视觉信息。：现有的基于扩散的视频编辑方法在运动编辑领域取得了显著进展。大多数方法专注于将视频和参考视频的运动对齐,但并没有限制视频背景和对象内容的保持不变,因此可以生成出人意料的视频内容。总之,本文提出的这两种新型激活函数在分类任务中展示了优异的表现,可以作为针对特定问题的替代选择。

2024-05-09 10:56:59 693

原创 CV每日论文--2024.5.8

我们在室外基准测试中的实验结果显示，Cube-LLM在Talk2Car数据集的3D基础推理方面相较于现有基线提高了21.3个AP-BEV点，在DriveLM数据集的复杂推理方面提高了17.7个点。然而，现有的视频-LMMs基准主要关注一般视频理解能力，忽略了对它们在复杂视频中推理能力和在用户提示作为文本查询的情况下模型的鲁棒性进行评估。我们评估了9个最近的模型，包括开源和闭源变体，并发现大多数Video-LMMs，特别是开源模型，在处理复杂视频时都存在鲁棒性和推理方面的困难。

2024-05-09 10:55:51 872 1

原创 CV每日论文--2024.5.7

现有的视觉语言模型(VLM)可以在2D视频中跟踪野外物体,而最新的生成模型已经提供了强大的视觉先验,可以合成高度不受限制的2D到3D对象。除了4D场景生成,我们的方法还可以通过将推断的3D轨迹投影到2D上来实现精确的2D点运动跟踪,而无需进行专门的训练。对于物体运动的建模,我们先利用物体中心帧的渲染损失和多视角生成先验来建模物体的中心变形,然后通过将渲染输出与感知像素和光流进行比较,优化物体从中心到世界坐标系的变换。总之,这种基于抖动的二值激活函数设计可以在保留特征细节的同时提升二进制神经网络的性能。

2024-05-07 09:10:30 504

原创 CV每日论文--2024.5.6

为了充分利用大量异构的驾驶数据,论文首先将不同传感器在多个场景下采集的数据进行整合,然后在训练过程中对数据、特征和标签空间进行对齐。为解决这一问题,本文提出可训练的概念干预重新对齐模块,利用概念之间的关系,在干预后对概念分配进行重新调整。研究发现,这主要是由于干预过程中各概念独立处理的问题,一个概念的修改并不影响模型对其他概念的使用。：这篇论文介绍了概念瓶颈模型(CBMs),它以人类可理解的概念为基础进行图像分类,从而实现可解释的模型决策。中文标题：通过概念重新对齐提升干预措施在概念瓶颈模型中的成效。

2024-05-07 09:09:19 312

原创 CV每日论文--2024.4.29

它将视频隐写的脆弱性与深度鲁棒的水印技术相结合,能够将不可见的视听本地化水印和版权水印嵌入原始视频帧和音频中,实现精确的篡改定位和版权保护。：AI生成的视频技术已经彻底改变了短视频制作、电影制作和个性化媒体的创作方式,使视频本地编辑成为不可或缺的工具。我们展示了该模型在涵盖不同场景和对象类型的多个视频设置中的应用,成功发现了未见过的序列中的物体级和环境变化。"Make-it-Real"提供了一种流畅集成到3D内容创作工作流程中的方法,展现了其作为3D资产开发人员重要工具的实用性。

2024-05-07 09:07:52 776

原创大模型（LLM）调用API论文研究合集

此外,为了提高模型的实用性,论文还引入了一个神经API检索器组件,用于为每个指令推荐合适的API接口。：Toolformer是一个新型的自监督学习语言模型,它在不牺牲核心语言建模能力的情况下,显著提升了在各种下游任务中的零样本性能,与更大型的模型相比也能保持竞争力。总的来说,Toolformer提供了一种新的自监督模型训练方法,能够在不牺牲语言理解能力的前提下,显著提升语言模型在实际应用中的性能和竞争力。总的来说,API-BLEND为训练和评测能够有效利用工具和API的LLM提供了一个全面的数据基础。

2024-04-28 15:52:31 591

原创 CV每日论文--2024.4.26

随着文本到图像和图像到图像生成模型的不断成熟，人工智能生成的图像（AGIs）在广告、娱乐、教育、社交媒体等领域展示了巨大的应用潜力。具体来说，受人类视觉系统的特点启发，同时受到“视觉质量”和“真实性”都具有局部和全局特征的观察启发，AMFF-Net对图像进行了放大和缩小，并将缩放后的图像和原始大小的图像作为输入，以获得多尺度特征。此外，考虑到图像和提示之间的相关性，AMFF-Net比较文本编码器和图像编码器的语义特征，以评估文本到图像的对齐情况。（4）强大的生成性能，源于对具体细节细化的强调。

2024-04-26 13:46:17 598 2

原创 CV每日论文--2024.4.25

基于这个流程，我们进一步设计了一种随机面部参考训练方法，以精确捕捉参考图像中与身份相关的嵌入，从而提高我们的模型在身份特定视频生成方面的保真度和泛化能力。广泛的实验证明，我们的方法优于现有的替代方法，为多部位可控制的人类图像定制提供了先进的能力。我们的方法利用基于点的高斯喷洒技术，通过对持久的高斯基元应用平滑和连续的变形来表示面部运动，而无需学习复杂的外观变化。广泛的实验证明，与以前的方法相比，我们的方法能够呈现高质量的唇同步说话头像视频，具有更好的面部保真度和更高的效率。

2024-04-26 13:44:08 831

原创 CV每日论文--2024.4.24

我们提出了GeoDiffuser，这是一种零样本基于优化的方法，将常见的2D和3D基于图像的对象编辑功能统一到一个方法中。作者展示了他们的方法在各种具有挑战性的示例中可以重建高质量的可动画3D人体，包括遮挡、图像裁剪、少量样本和极度稀疏的观察。：我们提出了一种新颖的交叉参考图像质量评估方法，填补了图像评估领域的空白，补充了各种已建立的评估方案，包括全参考度量（如SSIM），无参考度量（如NIQE），以及一般参考度量（包括FID）和多模态参考度量（例如CLIPScore）。中文标题：跨视图评估和打分。

2024-04-24 09:12:21 583

原创 CV每日论文--2024.4.23

在本研究中，我们对3D高斯核进行了重新思考，将其视为从描述场景物理表示的潜在概率分布中抽取的随机样本，换句话说，是马尔可夫链蒙特卡罗(MCMC)样本。与MCMC类似，样本只是过去的访问位置，我们的框架下添加新的高斯核可以简单地实现，只需将高斯核放置在现有高斯核位置即可。为了增强训练效率和利用更多的几何监督，例如深度和法线，我们将可微分的等值面提取模块集成到我们的框架中，并直接在网格表示上进行优化。：我们提出了一种名为ZeST的方法，用于在给定材质示例图像的情况下，实现对输入图像中对象的零样本材质转移。

2024-04-24 09:10:54 465

原创 CV每日论文--2024.4.22

尽管人类的平均准确率达到了95.70％，但对于现有的多模态LLMs来说，Blink是非常具有挑战性的：即使是最佳表现的GPT-4V和Gemini模型的准确率也只有51.26％和45.72％，仅比随机猜测高出13.17％和7.63％。该任务的目标是在不受预定义类别限制的情况下对图像中的实体进行分割，具有在未见过的图像和概念上令人印象深刻的泛化能力。我们的方法使用原始图像作为唯一的训练数据，在自监督开放世界分割方面取得了前所未有的性能，标志着在没有人工注释掩模的情况下实现高质量的开放世界实体分割的重要里程碑。

2024-04-22 09:17:25 848 3

原创 CV每日论文--2024.4.19

然而，由于物体几何、材质和环境光照之间的耦合，反渲染过程中存在固有的模糊性，这妨碍了之前的方法获得准确的结果。此外，我们开发了一种由粗到细的训练策略，利用估计的材料来指导扩散模型满足多视角一致性约束，从而产生更稳定和准确的结果。在真实世界和合成数据集上的广泛实验表明，我们的方法在材料恢复方面实现了最先进的性能。我们还使用灰度和彩色分量的分解来产生在灰度下观看时外观发生变化的图像，这在昏暗的环境下自然发生。由于更准确的深度完成，我们的方法被称为InFusion，在各种复杂场景下具有足够更好的保真度和效率。

2024-04-22 09:16:15 775

原创 CV每日论文--2024.4.18

结果显示，我们的组合世界模型是有效的，该框架使具身智能体能够有效地与不同的智能体在各种任务和任意数量的智能体之间进行合作，展示了我们提出的框架的未来潜力。我们的GOF是从基于射线追踪的3D高斯函数体积渲染中派生出来的，通过识别其等值面，直接从3D高斯函数中提取几何信息，而不需要像以前的工作那样诉诸于Poisson重建或TSDF融合。在这项工作中，我们提出了一种3D场景修复的方法，即以一致的方式替换重建场景的某些部分，以达到所需内容的目标。我们的框架实现了物体去除的最先进结果，同时保持了高度的可控性。

2024-04-18 09:00:39 696

原创 CV每日论文--2024.4.17

然后，我们引入了一个鲁棒的训练方法，用于降解感知的CLIP模型，以提取丰富的图像内容特征，以帮助高质量图像恢复。此外，统一的图像恢复任务的实验表明，所提出的后验采样改善了各种降解的图像生成质量。利用这些见解，我们提出了一种新的学习方法，将先前的知识整合起来，旨在减少对大量数据增强的需求，从而增强学习表示的有效性。值得注意的是，我们的发现强调，SSL模型注入先前知识后，表现出降低了对纹理偏差的依赖，减少了对快捷方式和增强技术的依赖，并且在面对自然和对抗性的数据损坏时具有更好的鲁棒性。

2024-04-18 08:59:14 580

原创 CV每日论文--2024.4.15

在本文中，我们解决了文本到图像生成模型中开放式偏见检测的挑战，提出了一种名为OpenBias的新方法，它能够独立于先前编译的集合，识别和量化偏见的严重程度。最后，一个视觉问答模型用于检测之前提出的偏见的存在和程度。在本文中，我们提出了一种称为GoMVS的方法，通过聚合具有几何一致性的代价，更好地利用相邻几何信息。为此，我们提出了一个简单的框架，利用预训练的NeRF表示模型以及用于文本和图像处理的多模态模型。这种映射开启了几个新的和有用的应用，包括NeRF的零样本分类和从图像或文本中检索NeRF的能力。

2024-04-16 09:06:04 267

原创 CV每日论文--2024.4.16

然而，实证研究表明，高级检测器通常会给这些新实例分配较低的分数，因为在推断过程中常用的贪心策略（如非极大值抑制（NMS））会无意中抑制这些实例，导致新类别的检测性能较差。为了缓解这个问题，本研究引入了两种先进的措施来调整置信度分数并保留错误拒绝的对象：（1）通过估计区域/对象提议的重叠度来估计类别无关的定位质量，（2）使用新类别的代理原型进行文本引导的视觉相似性估计。我们的AggDet是一种通用的、无需训练的后处理方案，可以持续提高开放词汇检测器的性能，而无需增加模型规模和架构设计。

2024-04-16 09:04:47 901 1

原创 CV每日论文---2024.4.12

为了解决这些问题，我们研究了扩展VLM视觉编码能力的方法。受此启发，我们引入了一种名为BRAVE的方法，将多个冻结编码器的特征合并成更多样化的表示，可直接作为冻结LM的输入。BRAVE在广泛的字幕和VQA基准测试中实现了最先进的性能，并显著减少了VLM的上述问题，同时需要比现有方法更少的可训练参数并具有更压缩的表示。我们的结果突显了将不同的视觉偏差纳入VLM中以实现更广泛和上下文化的视觉理解的潜力。为了确保几何结构的准确性，我们将深度扩散模型与修复模型的样本进行条件控制相结合，提供了丰富的几何结构。

2024-04-12 09:30:00 772

原创 CV每日论文--2024.4.11

为了解决这个问题，我们提出了一个新颖的数据集，名为ObjectsWithStateChange，该数据集记录了从任意视角观察的物体图像中的状态和姿态变化。我们相信，这个数据集将有助于细粒度物体识别和检索的研究，以及具有状态变化能力的物体的检索。我们相信，这种策略增强了模型捕捉细粒度任务中具有区分性特征的能力，这些任务可能涉及具有状态变化的物体，并在我们的新数据集以及ModelNet40和ObjectPI等其他具有挑战性的多视图数据集上提高了物体级任务的性能。中文标题：与光子一起飞行：渲染传播光的新观点。

2024-04-12 09:30:00 498

原创 CV每日论文--2024.4.10

在本研究中，我们专注于设计一种有效的模型，用于长期视频理解。我们在多个数据集上进行了广泛的实验，涵盖了各种视频理解任务，包括长视频理解、视频问答和视频字幕生成，并且我们的模型实现了最先进的性能。在这项研究中，我们对最近的视觉提示模型MAE-VQGAN的激活进行了分析，并找到了任务向量，即编码了任务特定信息的激活。考虑到UI屏幕通常具有更长的纵横比，并包含比自然图像更小的感兴趣对象（如图标和文本），我们在Ferret-UI中引入了“任意分辨率”功能，通过放大细节和利用增强的视觉特征来提高表现。

2024-04-10 09:00:00 954

原创 CV每日论文--2024.4.9

在这项工作中，我们提出了MuDI，这是一个新颖的框架，通过有效解耦多个主题的身份，实现了多主题个性化。在人类评估中，MuDI在多个主题的个性化方面的成功率是现有基线的两倍，并且相比最强基线，有70%的人更喜欢MuDI。与传统的基于卷积神经网络（CNN）的方法依赖于有限的局部接受域，或者基于视觉Transformer（ViTs）的方法需要二次复杂度的全局接受域不同，我们的模型通过使用Siamese编码器和创新的Mamba融合机制，有效地从不同模态中选择关键信息。

2024-04-10 09:00:00 480

原创 CV论文--2024.4.8

此外，这些方法只为检测到的对象分配一个单词标签，无法生成丰富的以对象为中心的描述，并且常常受到高度重叠预测的困扰。随着输入图像数量的增加，该方法的性能得到改善，填补了基于优化的无先验3D重建方法和单图像到3D扩散方法之间的差距。以前的NeRF恢复方法是针对特定的退化类型量身定制的，忽略了恢复的通用性。我们的综合方法在三个任务上达到或超过了最先进的水平：在BURST数据集上进行开放世界视频实例分割，在VidSTG数据集上进行密集视频对象字幕生成，在OVIS数据集上进行封闭世界视频实例分割。

2024-04-08 09:23:06 551

原创 CV论文--2024.4.7

最新的基于辐射场的方法可以重建完整的三维表示，但在处理遮挡区域时仍存在困难，因为在没有视觉观察的情况下，推断几何形状需要对周围环境的语义知识和空间上下文进行推理。我们引入了一个视觉语言调节模块，通过细粒度的语义信息来丰富点的特征表示。具体而言，我们训练了一个去噪扩散模型，该模型可以根据单个RGB输入图像生成多视角RGB-D图像，并利用深度估计（包含一些噪声）来获得基于投影的条件，以保持多视角的一致性。我们证明了我们的方法可以生成比最先进的技术更准确的合成结果，包括基于蒸馏的3D推断和先前的多视角生成方法。

2024-04-08 09:21:43 687

原创 CV论文--2024.4.3

经过对从网络中挖掘的具有丰富语义关系的36.7M个（查询图像，指令，目标图像）三元组进行训练后，MagicLens在八项不同的图像检索任务的基准测试中取得了与之前最先进方法相当或更好的结果。当将GIVT应用于迭代掩蔽建模的类条件图像生成时，我们展示了与MaskGIT相竞争的结果，而在使用它进行因果建模时，我们的方法优于VQ-GAN和MaskGIT。我们的方法在不同的样式和文本提示中的评估表明，它具有高质量的综合和保真度，强调了它在实现各种输入的一致风格方面的功效。中文标题：共享注意力下的风格对齐图像生成。

2024-04-03 08:48:42 293

原创 CV论文--2024.4.2

通过广泛的实验和深入研究UPD问题，我们发现大多数VLM，包括GPT-4V和LLaVA-Next-34B，在不同程度上都难以应对我们的基准测试，突显了改进的重要性。利用我们的理论洞见，我们提出了SeaBird（鸟瞰图中的分割）作为通向大型物体泛化的第一步。为了解决UPD问题，我们探索了无需训练和基于训练的解决方案，并提供了新的见解，阐明了它们的有效性和局限性。我们在MMStar上评估了16个领先的LVLM，以评估它们的多模态能力，并使用提出的指标在7个基准测试中调查它们的数据泄漏和实际多模态收益。

2024-04-02 08:30:00 845

原创 CV论文--2024.4.1

经过在从Web中挖掘的具有丰富语义关系的36.7M个（查询图像，指令，目标图像）三元组上的训练，MagicLens在八个不同的图像检索任务的基准测试中实现了与之前最先进的方法相当或更好的结果。我们的实验表明，初始化种子是高度可检测的，而在图像生成过程中的其他细微变化也在一定程度上是可检测的。通过在ShapeNet和OmniObject3D数据集上进行大量实验，我们的模型在定量和定性方面都取得了最先进的生成结果，充分展示了GaussianCube作为一种强大而多功能的3D表示方法的潜力。

2024-04-01 09:28:20 893

原创 CV论文--2024.3.29

在稠密设置中，辐射场可以很好地捕捉高频外观和几何细节，但在稀疏的摄像机视图下进行纯监督时，辐射场的表现不佳，因为它会过度拟合稀疏视图输入。为了评估方法在不同情况下的表现，收集了一个新的数据集，WildDynaCap，其中包含在密集的摄像机圆顶和野外稀疏摄像机设备中捕捉的主体，并在公共数据集和WildDynaCap数据集上展示了优于最近的最先进方法的结果。我们进一步构建了一个高质量的数据集，促进了精确的图像理解和基于推理的生成，扩大了当前VLMs的操作范围。为了解决这个问题，我们提出了引导式监督；

2024-03-29 09:33:11 449

原创 CV论文--2024.3.28

为此，我们提出了一种名为MAVOS的基于Transformer的方法，它引入了一种优化的和动态的长期调制交叉注意(MCA)内存，以模拟时间平滑性，而无需频繁扩展内存。与现有最佳的基于Transformer的方法相比，我们的MAVOS方法将速度提高了7.6倍，同时将GPU内存需求显著降低了87%，并在短视频和长视频数据集上展现了可比的分割性能。通过我们提出的新方法，我们能够以高效而稳健的方式跟踪视频中的任意时间的任何像素，并在训练速度、稳健性和准确性方面取得了显著的进展。

2024-03-28 09:35:44 686

原创 CV论文--2024.3.27

这篇文章介绍了一种名为无伪影超分辨率（SR）技术的方法，其旨在将低分辨率图像转换为高分辨率图像，并保持原始内容的完整性，消除任何失真或合成细节。这些伪影可能从微小的噪点到不真实的纹理，都会偏离源图像的真实结构，因此对超分辨率过程的完整性构成挑战。为了解决缺乏全面路缘石数据集和3D注释的问题，作者创建了包含7,100帧的3D-Curb数据集，这是目前最大、最多样化的路缘石点云集合。因此，在这项研究中，我们考虑了一种极端情况，即只有一个新领域样本的情况，称之为单次DIL。中文标题：一次性域增量学习。

2024-03-27 09:31:15 937

原创 CV论文--2024.3.26

基于这一发现，我们提出了一种创新的自适应视觉令牌减少方法，名为PruMerge，它可以显著减少视觉令牌的数量，同时保持可比较的模型性能。通过广泛的定量和定性实验，我们证明了所提出的多任务去噪扩散模型可以显著提高多任务预测映射，并在两个不同的部分标记评估设置下优于三个具有挑战性的多任务基准的最先进方法。我们的方法具有两个关键点：首先，我们构建了可扩展的架构；在这些任务中，每个训练样本仅标记了任务的一个子集，因此在训练过程中存在任务标签的缺失，这导致预测质量下降且存在噪声，这一点在最先进的方法中也可观察到。

2024-03-26 09:44:28 745

原创 CV论文--2024.3.25

与最新的最先进方法pixelSplat相比，我们的模型使用的参数少了10倍，推理速度提高了2倍以上，同时提供了更高的外观和几何质量，以及更好的跨数据集泛化性能。为了推广到不同场景中的各种对象，我们创建了一个大规模的逼真数据集，其中包含来自Objaverse数据集的多样化的12K个3D物体模型。同时，我们报告了与最先进的障碍物跟踪模型相当的准确性，而仅需要它们计算成本的一小部分，通常是十倍到二十倍的差距。：我们提出了一种名为MVSplat的有效前馈3D高斯喷溅模型，该模型是从稀疏的多视图图像中学习得到的。

2024-03-25 14:36:48 340

虚拟现实革命前夕：第四次工业革命的钥匙之一——VR&AR深度行业研究报告.pdf

exr2pngorjpg.py

SSIM和PSNR的python代码

基于CNN的图像搜索demo

用于机器学习各种床的图片资源

android实现秒表功能

空空如也