自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(79)
  • 资源 (6)
  • 收藏
  • 关注

原创 CV每日论文--2024.4.24

我们提出了GeoDiffuser,这是一种零样本基于优化的方法,将常见的2D和3D基于图像的对象编辑功能统一到一个方法中。作者展示了他们的方法在各种具有挑战性的示例中可以重建高质量的可动画3D人体,包括遮挡、图像裁剪、少量样本和极度稀疏的观察。:我们提出了一种新颖的交叉参考图像质量评估方法,填补了图像评估领域的空白,补充了各种已建立的评估方案,包括全参考度量(如SSIM),无参考度量(如NIQE),以及一般参考度量(包括FID)和多模态参考度量(例如CLIPScore)。中文标题:跨视图评估和打分。

2024-04-24 09:12:21 224

原创 CV每日论文--2024.4.23

在本研究中,我们对3D高斯核进行了重新思考,将其视为从描述场景物理表示的潜在概率分布中抽取的随机样本,换句话说,是马尔可夫链蒙特卡罗(MCMC)样本。与MCMC类似,样本只是过去的访问位置,我们的框架下添加新的高斯核可以简单地实现,只需将高斯核放置在现有高斯核位置即可。为了增强训练效率和利用更多的几何监督,例如深度和法线,我们将可微分的等值面提取模块集成到我们的框架中,并直接在网格表示上进行优化。:我们提出了一种名为ZeST的方法,用于在给定材质示例图像的情况下,实现对输入图像中对象的零样本材质转移。

2024-04-24 09:10:54 285

原创 CV每日论文--2024.4.22

尽管人类的平均准确率达到了95.70%,但对于现有的多模态LLMs来说,Blink是非常具有挑战性的:即使是最佳表现的GPT-4V和Gemini模型的准确率也只有51.26%和45.72%,仅比随机猜测高出13.17%和7.63%。该任务的目标是在不受预定义类别限制的情况下对图像中的实体进行分割,具有在未见过的图像和概念上令人印象深刻的泛化能力。我们的方法使用原始图像作为唯一的训练数据,在自监督开放世界分割方面取得了前所未有的性能,标志着在没有人工注释掩模的情况下实现高质量的开放世界实体分割的重要里程碑。

2024-04-22 09:17:25 820

原创 CV每日论文--2024.4.19

然而,由于物体几何、材质和环境光照之间的耦合,反渲染过程中存在固有的模糊性,这妨碍了之前的方法获得准确的结果。此外,我们开发了一种由粗到细的训练策略,利用估计的材料来指导扩散模型满足多视角一致性约束,从而产生更稳定和准确的结果。在真实世界和合成数据集上的广泛实验表明,我们的方法在材料恢复方面实现了最先进的性能。我们还使用灰度和彩色分量的分解来产生在灰度下观看时外观发生变化的图像,这在昏暗的环境下自然发生。由于更准确的深度完成,我们的方法被称为InFusion,在各种复杂场景下具有足够更好的保真度和效率。

2024-04-22 09:16:15 761

原创 CV每日论文--2024.4.18

结果显示,我们的组合世界模型是有效的,该框架使具身智能体能够有效地与不同的智能体在各种任务和任意数量的智能体之间进行合作,展示了我们提出的框架的未来潜力。我们的GOF是从基于射线追踪的3D高斯函数体积渲染中派生出来的,通过识别其等值面,直接从3D高斯函数中提取几何信息,而不需要像以前的工作那样诉诸于Poisson重建或TSDF融合。在这项工作中,我们提出了一种3D场景修复的方法,即以一致的方式替换重建场景的某些部分,以达到所需内容的目标。我们的框架实现了物体去除的最先进结果,同时保持了高度的可控性。

2024-04-18 09:00:39 671

原创 CV每日论文--2024.4.17

然后,我们引入了一个鲁棒的训练方法,用于降解感知的CLIP模型,以提取丰富的图像内容特征,以帮助高质量图像恢复。此外,统一的图像恢复任务的实验表明,所提出的后验采样改善了各种降解的图像生成质量。利用这些见解,我们提出了一种新的学习方法,将先前的知识整合起来,旨在减少对大量数据增强的需求,从而增强学习表示的有效性。值得注意的是,我们的发现强调,SSL模型注入先前知识后,表现出降低了对纹理偏差的依赖,减少了对快捷方式和增强技术的依赖,并且在面对自然和对抗性的数据损坏时具有更好的鲁棒性。

2024-04-18 08:59:14 573

原创 CV每日论文--2024.4.15

在本文中,我们解决了文本到图像生成模型中开放式偏见检测的挑战,提出了一种名为OpenBias的新方法,它能够独立于先前编译的集合,识别和量化偏见的严重程度。最后,一个视觉问答模型用于检测之前提出的偏见的存在和程度。在本文中,我们提出了一种称为GoMVS的方法,通过聚合具有几何一致性的代价,更好地利用相邻几何信息。为此,我们提出了一个简单的框架,利用预训练的NeRF表示模型以及用于文本和图像处理的多模态模型。这种映射开启了几个新的和有用的应用,包括NeRF的零样本分类和从图像或文本中检索NeRF的能力。

2024-04-16 09:06:04 261

原创 CV每日论文--2024.4.16

然而,实证研究表明,高级检测器通常会给这些新实例分配较低的分数,因为在推断过程中常用的贪心策略(如非极大值抑制(NMS))会无意中抑制这些实例,导致新类别的检测性能较差。为了缓解这个问题,本研究引入了两种先进的措施来调整置信度分数并保留错误拒绝的对象:(1)通过估计区域/对象提议的重叠度来估计类别无关的定位质量,(2)使用新类别的代理原型进行文本引导的视觉相似性估计。我们的AggDet是一种通用的、无需训练的后处理方案,可以持续提高开放词汇检测器的性能,而无需增加模型规模和架构设计。

2024-04-16 09:04:47 876 1

原创 CV每日论文---2024.4.12

为了解决这些问题,我们研究了扩展VLM视觉编码能力的方法。受此启发,我们引入了一种名为BRAVE的方法,将多个冻结编码器的特征合并成更多样化的表示,可直接作为冻结LM的输入。BRAVE在广泛的字幕和VQA基准测试中实现了最先进的性能,并显著减少了VLM的上述问题,同时需要比现有方法更少的可训练参数并具有更压缩的表示。我们的结果突显了将不同的视觉偏差纳入VLM中以实现更广泛和上下文化的视觉理解的潜力。为了确保几何结构的准确性,我们将深度扩散模型与修复模型的样本进行条件控制相结合,提供了丰富的几何结构。

2024-04-12 09:30:00 754

原创 CV每日论文--2024.4.11

为了解决这个问题,我们提出了一个新颖的数据集,名为ObjectsWithStateChange,该数据集记录了从任意视角观察的物体图像中的状态和姿态变化。我们相信,这个数据集将有助于细粒度物体识别和检索的研究,以及具有状态变化能力的物体的检索。我们相信,这种策略增强了模型捕捉细粒度任务中具有区分性特征的能力,这些任务可能涉及具有状态变化的物体,并在我们的新数据集以及ModelNet40和ObjectPI等其他具有挑战性的多视图数据集上提高了物体级任务的性能。中文标题:与光子一起飞行:渲染传播光的新观点。

2024-04-12 09:30:00 490

原创 CV每日论文--2024.4.10

在本研究中,我们专注于设计一种有效的模型,用于长期视频理解。我们在多个数据集上进行了广泛的实验,涵盖了各种视频理解任务,包括长视频理解、视频问答和视频字幕生成,并且我们的模型实现了最先进的性能。在这项研究中,我们对最近的视觉提示模型MAE-VQGAN的激活进行了分析,并找到了任务向量,即编码了任务特定信息的激活。考虑到UI屏幕通常具有更长的纵横比,并包含比自然图像更小的感兴趣对象(如图标和文本),我们在Ferret-UI中引入了“任意分辨率”功能,通过放大细节和利用增强的视觉特征来提高表现。

2024-04-10 09:00:00 897

原创 CV每日论文--2024.4.9

在这项工作中,我们提出了MuDI,这是一个新颖的框架,通过有效解耦多个主题的身份,实现了多主题个性化。在人类评估中,MuDI在多个主题的个性化方面的成功率是现有基线的两倍,并且相比最强基线,有70%的人更喜欢MuDI。与传统的基于卷积神经网络(CNN)的方法依赖于有限的局部接受域,或者基于视觉Transformer(ViTs)的方法需要二次复杂度的全局接受域不同,我们的模型通过使用Siamese编码器和创新的Mamba融合机制,有效地从不同模态中选择关键信息。

2024-04-10 09:00:00 473

原创 CV论文--2024.4.8

此外,这些方法只为检测到的对象分配一个单词标签,无法生成丰富的以对象为中心的描述,并且常常受到高度重叠预测的困扰。随着输入图像数量的增加,该方法的性能得到改善,填补了基于优化的无先验3D重建方法和单图像到3D扩散方法之间的差距。以前的NeRF恢复方法是针对特定的退化类型量身定制的,忽略了恢复的通用性。我们的综合方法在三个任务上达到或超过了最先进的水平:在BURST数据集上进行开放世界视频实例分割,在VidSTG数据集上进行密集视频对象字幕生成,在OVIS数据集上进行封闭世界视频实例分割。

2024-04-08 09:23:06 546

原创 CV论文--2024.4.7

最新的基于辐射场的方法可以重建完整的三维表示,但在处理遮挡区域时仍存在困难,因为在没有视觉观察的情况下,推断几何形状需要对周围环境的语义知识和空间上下文进行推理。我们引入了一个视觉语言调节模块,通过细粒度的语义信息来丰富点的特征表示。具体而言,我们训练了一个去噪扩散模型,该模型可以根据单个RGB输入图像生成多视角RGB-D图像,并利用深度估计(包含一些噪声)来获得基于投影的条件,以保持多视角的一致性。我们证明了我们的方法可以生成比最先进的技术更准确的合成结果,包括基于蒸馏的3D推断和先前的多视角生成方法。

2024-04-08 09:21:43 678

原创 CV论文--2024.4.3

经过对从网络中挖掘的具有丰富语义关系的36.7M个(查询图像,指令,目标图像)三元组进行训练后,MagicLens在八项不同的图像检索任务的基准测试中取得了与之前最先进方法相当或更好的结果。当将GIVT应用于迭代掩蔽建模的类条件图像生成时,我们展示了与MaskGIT相竞争的结果,而在使用它进行因果建模时,我们的方法优于VQ-GAN和MaskGIT。我们的方法在不同的样式和文本提示中的评估表明,它具有高质量的综合和保真度,强调了它在实现各种输入的一致风格方面的功效。中文标题:共享注意力下的风格对齐图像生成。

2024-04-03 08:48:42 285

原创 CV论文--2024.4.2

通过广泛的实验和深入研究UPD问题,我们发现大多数VLM,包括GPT-4V和LLaVA-Next-34B,在不同程度上都难以应对我们的基准测试,突显了改进的重要性。利用我们的理论洞见,我们提出了SeaBird(鸟瞰图中的分割)作为通向大型物体泛化的第一步。为了解决UPD问题,我们探索了无需训练和基于训练的解决方案,并提供了新的见解,阐明了它们的有效性和局限性。我们在MMStar上评估了16个领先的LVLM,以评估它们的多模态能力,并使用提出的指标在7个基准测试中调查它们的数据泄漏和实际多模态收益。

2024-04-02 08:30:00 836

原创 CV论文--2024.4.1

经过在从Web中挖掘的具有丰富语义关系的36.7M个(查询图像,指令,目标图像)三元组上的训练,MagicLens在八个不同的图像检索任务的基准测试中实现了与之前最先进的方法相当或更好的结果。我们的实验表明,初始化种子是高度可检测的,而在图像生成过程中的其他细微变化也在一定程度上是可检测的。通过在ShapeNet和OmniObject3D数据集上进行大量实验,我们的模型在定量和定性方面都取得了最先进的生成结果,充分展示了GaussianCube作为一种强大而多功能的3D表示方法的潜力。

2024-04-01 09:28:20 888

原创 CV论文--2024.3.29

在稠密设置中,辐射场可以很好地捕捉高频外观和几何细节,但在稀疏的摄像机视图下进行纯监督时,辐射场的表现不佳,因为它会过度拟合稀疏视图输入。为了评估方法在不同情况下的表现,收集了一个新的数据集,WildDynaCap,其中包含在密集的摄像机圆顶和野外稀疏摄像机设备中捕捉的主体,并在公共数据集和WildDynaCap数据集上展示了优于最近的最先进方法的结果。我们进一步构建了一个高质量的数据集,促进了精确的图像理解和基于推理的生成,扩大了当前VLMs的操作范围。为了解决这个问题,我们提出了引导式监督;

2024-03-29 09:33:11 445

原创 CV论文--2024.3.28

为此,我们提出了一种名为MAVOS的基于Transformer的方法,它引入了一种优化的和动态的长期调制交叉注意(MCA)内存,以模拟时间平滑性,而无需频繁扩展内存。与现有最佳的基于Transformer的方法相比,我们的MAVOS方法将速度提高了7.6倍,同时将GPU内存需求显著降低了87%,并在短视频和长视频数据集上展现了可比的分割性能。通过我们提出的新方法,我们能够以高效而稳健的方式跟踪视频中的任意时间的任何像素,并在训练速度、稳健性和准确性方面取得了显著的进展。

2024-03-28 09:35:44 683

原创 CV论文--2024.3.27

这篇文章介绍了一种名为无伪影超分辨率(SR)技术的方法,其旨在将低分辨率图像转换为高分辨率图像,并保持原始内容的完整性,消除任何失真或合成细节。这些伪影可能从微小的噪点到不真实的纹理,都会偏离源图像的真实结构,因此对超分辨率过程的完整性构成挑战。为了解决缺乏全面路缘石数据集和3D注释的问题,作者创建了包含7,100帧的3D-Curb数据集,这是目前最大、最多样化的路缘石点云集合。因此,在这项研究中,我们考虑了一种极端情况,即只有一个新领域样本的情况,称之为单次DIL。中文标题:一次性域增量学习。

2024-03-27 09:31:15 921

原创 CV论文--2024.3.26

基于这一发现,我们提出了一种创新的自适应视觉令牌减少方法,名为PruMerge,它可以显著减少视觉令牌的数量,同时保持可比较的模型性能。通过广泛的定量和定性实验,我们证明了所提出的多任务去噪扩散模型可以显著提高多任务预测映射,并在两个不同的部分标记评估设置下优于三个具有挑战性的多任务基准的最先进方法。我们的方法具有两个关键点:首先,我们构建了可扩展的架构;在这些任务中,每个训练样本仅标记了任务的一个子集,因此在训练过程中存在任务标签的缺失,这导致预测质量下降且存在噪声,这一点在最先进的方法中也可观察到。

2024-03-26 09:44:28 730

原创 CV论文--2024.3.25

与最新的最先进方法pixelSplat相比,我们的模型使用的参数少了10倍,推理速度提高了2倍以上,同时提供了更高的外观和几何质量,以及更好的跨数据集泛化性能。为了推广到不同场景中的各种对象,我们创建了一个大规模的逼真数据集,其中包含来自Objaverse数据集的多样化的12K个3D物体模型。同时,我们报告了与最先进的障碍物跟踪模型相当的准确性,而仅需要它们计算成本的一小部分,通常是十倍到二十倍的差距。:我们提出了一种名为MVSplat的有效前馈3D高斯喷溅模型,该模型是从稀疏的多视图图像中学习得到的。

2024-03-25 14:36:48 337

原创 CV论文--2024.3.22

我们的主要贡献包括三个方面。其次,我们开发了一种新颖的修剪技术,减少总点数同时保持高质量,实现更小、更紧凑的场景表示,并具有更快的推理速度。我们还引入了一个名为“ImageNet概念编辑基准(ICEB)”的全面基准,用于评估T2I模型的大规模概念编辑能力,包括自由形式提示、大规模概念类别和广泛的评估指标两个子任务。通过在我们提出的基准和之前的基准上进行广泛实验,结果表明EMCID具有出色的可扩展性,能够编辑高达1,000个概念,为快速调整和重新部署T2I扩散模型提供了实用的方法。

2024-03-22 09:38:52 309

原创 CV论文--2024.3.21

通过将Chain-of-Spot与指令跟随模型LLaVA-1.5集成,我们的方法在多个多模态数据集和基准测试中始终提高了图像推理性能,而无需复杂的改动,并获得了新的最先进结果。在Fouriscale的指导下,我们的方法成功地平衡了生成图像的结构完整性和保真度,实现了任意尺寸、高分辨率和高质量的图像生成能力。我们在15个数据集上进行了广泛的实验,结果验证了所提出的DualAdapter在少样本学习和领域泛化任务上优于现有的最先进方法,并且具备竞争性的计算效率。

2024-03-21 09:07:02 663

原创 CV论文--2024.3.20

此外,我们将多模态输入表示统一为2D图像格式,以实现多模态异常检测和推理。为了实现这一目标,提出了名为Zippo的统一框架,通过将颜色和透明度分布融合到单个扩散模型中,将扩散潜在变量扩展为RGB图像和Alpha遮罩的联合表示。通过交替选择一种模态作为条件,然后将扩散过程应用于相应的模态,Zippo能够从Alpha遮罩生成RGB图像,并从输入图像预测透明度。除了单模态预测外,他们还提出了一种模态感知噪声重新分配策略,以进一步赋予Zippo在文本指导下同时生成RGB图像及其对应的Alpha遮罩的能力。

2024-03-20 09:18:13 276

原创 CV论文--2024.3.19

此外,我们还评估和配置了网络结构和损失函数的不同选项。多模态基础模型如CLIP通过在互联网上收集数百万样本进行预训练,产生了具有竞争力的零样本结果,通常能够达到完全监督方法的水平,而无需进行任务特定的训练。在本研究中,我们对少样本图像分类进行了广泛的实验研究,探索在冻结特征空间中应用数据增强的方法,我们将其称为"FroFA"(冻结特征增强),总共涵盖了二十种增强方式。:在许多少样本任务中,通过在预训练的视觉模型输出上训练线性分类器或轻量级模型,即所谓的"冻结特征",可以实现令人印象深刻的性能。

2024-03-19 10:55:52 408

原创 论文解析:V3D: Video Diffusion Models are Effective 3DGenerators

自动三维生成最近引起了广泛关注。最近的方法大大加快了生成速度,但由于模型容量有限或三维数据,生成的物体通常不够精细。在视频扩散模型最新进展的推动下,我们引入了 V3D,利用预训练视频扩散模型的世界模拟能力来促进三维生成。为了充分发挥视频扩散感知三维世界的潜力,我们进一步引入了几何一致性先验,并将视频扩散模型扩展为多视角一致性三维生成器。得益于此,最先进的视频扩散模型可以进行微调,从而在给定单个图像的情况下生成围绕物体的 360° 轨道帧。

2024-03-18 10:38:32 1210

原创 C论文--2024.3.18

通过冻结Foundation Tracker并仅调整一些额外的可训练参数,Prompt Tracker抑制了Foundation Tracker的强定位能力,并在下游的RGB+X跟踪任务上实现了高效的参数微调。分割分组将点云划分为语义上有意义的区域,增强了语义的连贯性,并为后续的对比表示学习提供了语义指导。为了评估我们的通用框架OneTracker(由Foundation Tracker和Prompt Tracker组成)的有效性,我们对6个流行的跟踪任务在11个基准测试上进行了广泛的实验。

2024-03-18 09:19:53 831

原创 CV论文--2024.3.15

一组具有兼容边的3D对应关系形成了对应关系图,这在最先进的3D点云配准方法中扮演着重要角色,如基于最大团的方法(MAC)。尽管如此,对这一图的特性尚未完全理解。然而,现有方法存在挑战,因为它们依赖于复杂的级联框架,信息相对有限,仅依赖于整个网络输出的监督,单帧输入和小型骨干。3DFIRES的设计目标是在仅有一个视角的情况下,重建未曾见过的场景的完整几何形状,包括隐藏的表面。研究结果表明,即使只有一个输入,我们的方法在效果上与单视角重建方法相当,并且在稀疏视角三维重建的定量和定性测量方面超过了现有技术。

2024-03-15 09:07:28 427

原创 CV论文--2024.3.14

因此,更广泛的研究目标将是探讨如何将任意两个不相关的语言和生成视觉模型集成到文本生成图像中。在这项研究中,我们探索了这一目标,并提出了LaVi-Bridge,这是一个管道,可以将不同的预训练语言模型和生成视觉模型集成到文本生成图像中。在这个框架内,我们证明了将更先进的模块,如更先进的语言模型或生成视觉模型,纳入其中,可以显著提高文本对齐或图像质量等能力。:我们介绍了一项名为StyleGaussian的创新技术,它是一种3D风格转移技术,能够以每秒10帧的速度将任何图像的风格即时转移到3D场景中。

2024-03-14 09:11:12 803

原创 CV论文--2024.3.13

通过基于GPT-4V的评估框架,我们的研究结果显示,与流行基准线相比,我们的方法在性能上有显著改进,尤其是在增加LoRA组合数量时效果更加显著。通过从 3D 重建的角度出发,利用构建的 3D 模型满足的几何约束的逼真程度作为代理,来评估生成的视频符合真实世界物理规则的程度。:3D高斯点云绘制(3D-GS)是计算机图形学领域的重要进展,它可以提供清晰的场景表示和创新的视图合成,而无需依赖神经网络,如神经辐射场(NeRF)。由于3D高斯点云绘制技术的普及和研究范围的扩大,本文对过去一年相关论文进行了全面调查。

2024-03-13 13:54:45 394

转载 手把手教你实现RAG

这样切分出来的文档片段就是一个一个的差不多相同长度的文档片段了。不过在切分的时候要注意,片段与片段之间最好要有一些重叠的内容,这样才能保证检索的时候能够检索到相关的文档片段。LLM会产生误导性的 “幻觉”,依赖的信息可能过时,处理特定知识时效率不高,缺乏专业领域的深度洞察,同时在推理能力上也有所欠缺。基类,这样我们再用其他的模型的时候,只需要继承这个基类,然后在此基础上进行修改即可,方便代码扩展。一样的,我们还是先实现一个基类,这样我们在遇到其他的自己感兴趣的模型就可以快速的扩展了。

2024-03-13 13:53:23 297

原创 CV论文--2024.3.12

我们的方法是由语言指导驱动的,令人惊讶的是,它非常简单易懂,但在具有挑战性的数据集(如GeoNet和DomainNet)上明显优于所有先前的方法,验证了其极高的有效性。为了进一步扩展我们研究的范围,超越图像,我们引入了一个新的基准来研究视频中的自我-外部转移,并发现我们的语言辅助LaGTran在这种高度具有挑战性和非常规的转移设置中产生了显著的收益。:我们提出了LaGTran,这是一个新颖的框架,利用现成或容易获取的文本描述来指导从标记源数据到存在领域转移的未标记目标数据的强大的区分性知识的转移。

2024-03-12 09:31:14 400

原创 CV论文--2024.3.11

我们对基于视觉的演绎推理进行了深入研究,这是一个相对较复杂但较少被探索的领域,并发现了当前最先进的VLMs中存在的盲点。结果显示,尽管LLMs在基于文本的推理方面表现出令人印象深刻的能力,但在视觉演绎推理方面,我们的水平远未达到可比较的熟练程度。我们提出的策略可以整合到许多现有的跟踪系统中,并且经过广泛的实验证明了我们的方法在减少长尾分布对多目标跟踪性能的影响方面的有效性。因此,我们建议将胶囊网络置于遮蔽图像建模框架中进行训练,并采用新的胶囊解码器,以提高胶囊网络在现实大小图像上的性能。

2024-03-11 11:49:44 790

原创 CV论文--2024.3.8

这篇文章研究了在语义分割中应用无监督域自适应(UDA)的情况,即在已标记的源数据集上训练模型,然后将其适应到未标记的目标数据集上。由于在UDA中,某些类别通常与不可靠的预测相关联,因此在不偏向某些类别的情况下减少这些伪标签的影响是非常困难的。我们创建了一个名为AlgoPuzzleVQA的新数据集,旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图方面的能力。数据集是通过人类编写的代码自动生成的,所有拼图都有确切的解决方案,可以从算法中找到,无需繁琐的人工计算。

2024-03-08 10:01:47 815

原创 CV论文--2024.3.7

然而,直接使用神经网络预测姿态的方法在处理重叠区域有限的图像时更为鲁棒,并且可以推断出绝对平移尺度,尽管牺牲了一定的精度。经过全面分析,我们的设计选择得到了支持,并且证明我们的方法能够灵活适应不同特征提取器和对应估计器,在Matterport3D、InteriorNet、StreetLearn和Map-free Relocalization等数据集上展现出最先进的6DoF姿态估计性能。我们的端到端训练模型结合了基于自我注意力的场景感知对象编码器和原始的多键锚点技术,从而提高了对象识别准确性和空间关系理解。

2024-03-07 10:21:13 394

原创 CV论文--2024.3.6

我们通过在Realistic Synthetic 360、Real Forward-Facing、Replica数据集和用户捕获数据集等严格的真实场景基准测试中,与几种基于NeRF的方法进行对比分析,证明了NeRF-VPT显著提高了基线性能,并能够更有效地生成高质量的新视角图像。通过广泛的实验评估,我们的DNA模型在移动卷积网络和小视觉变换器上的ImageNet数据集上取得了78.9%和83.6%的最高准确率,达到了最先进的水平。我们的研究还提供了深入的经验分析和神经架构评估的见解。

2024-03-06 09:43:03 814

原创 解读:DUSt3R: Geometric 3D Vision Made Easy

野外多视角立体重建(MVS)需要首先估算相机参数,例如内在和外在参数。这些参数的获取通常既繁琐又麻烦,但却是在三维空间中对相应像素进行三角测量的必要条件,而三角测量正是所有性能最佳的 MVS 算法的核心。在这项工作中,我们采取了相反的立场,并引入了 DUSt3R,这是一种用于任意图像集合的高密度、无约束立体三维重建的全新范式,即在没有摄像机校准或视点姿势等先验信息的情况下进行操作。我们把成对重建问题看作是点阵图的回归,放宽了通常投影相机模型的硬约束。我们展示了这种表述方式顺利地统一了单目和双目重建情况。

2024-03-05 11:50:25 1219

原创 SMERF: Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration

最近的实时视图合成技术在保真度和速度方面取得了迅速的进步,现代方法能够以交互式帧速率渲染近乎逼真的场景。与此同时,在适合光栅化的显式场景表示和基于光线行进的神经场之间出现了紧张关系,后者的先进实例在质量上超过了前者,而对于实时应用程序来说却非常昂贵。我们引入了 SMERF,这是一种视图合成方法,可在占地面积达 300 m 的大型场景中实现实时方法中最先进的精度,体积分辨率为 3.5 mm。

2024-03-05 10:34:02 1035

原创 CV论文--2024.3.5

最近,神经渲染在训练和渲染速度方面取得了巨大的进展。我们的方法使得能够以60FPS的速度实现最先进的渲染质量,同时合成新的姿势和视角,而训练速度比先前的工作快了约100倍。广泛的实验表明,我们的方法在标准基准测试中比当前实时新视图合成技术提高了0.78 dB,在大型场景中提高了1.78 dB,渲染速度比最先进的辐射场模型快了三个数量级,并能在包括智能手机在内的各种普通设备上实现实时性能。通过在不同规模的模型架构和多样化的数据之间进行训练,我们提供了经验证据,证明我们的模型具备有效的可扩展性。

2024-03-05 09:11:49 340

虚拟现实革命前夕:第四次工业革命的钥匙之一——VR&AR深度行业研究报告.pdf

虚拟现实革命前夕:第四次工业革命的钥匙之一——VR&AR深度行业研究报告.pdf

2020-10-15

exr2pngorjpg.py

python版本EXR文件转PNG或JPG格式,无损转换,可以直接运行,还可以画三通道的直方图,还有详细的EXR格式介绍

2020-09-10

SSIM和PSNR的python代码

SSIM和PSNR的python实现代码,可用于计算图片之间的差异,直接运行即可,有任何问题可以评论提出

2020-09-02

基于CNN的图像搜索demo

基于CNN的图像搜索demo ,基于python实现,可以在web上查看实现效果

2018-06-29

用于机器学习各种床的图片资源

该资源保护各种床的图片资源,可以用于机器学习的训练数据

2018-06-20

android实现秒表功能

实现秒表功能,可以设置计时时间,开始,暂停,停止

2014-06-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除