计算机视觉每日论文-CSDN博客

原创 CV每日论文--2024.7.25

生成具有全面挑战和相关深度信息的新的、用户定义的场景:我们利用具有深度感知控制的先进文本到图像扩散模型,生成高质量图像内容,并保持生成和源图像之间的三维结构的一致性。4. 性能优越:我们进行了全面的实验验证,PartGLEE在各种部件级任务上实现了最先进的性能,并在对象级任务上获得了竞争性的结果。：我们提出了PartGLEE, 这是一个用于定位和识别图像中物体及其部件的部件级基础模型。：这篇论文提出了一种称为SAM-CP的简单方法,可以在SAM模型的基础上建立两种可组合的提示类型,用于灵活的语义分割。

2024-08-22 22:51:29 731

原创 CV每日论文--2024.7.24

我们提出的方法名为AutoAD-Zero,在电影和电视剧的AD生成中表现出色,甚至可与一些基于真实AD进行微调的模型相竞争,实现了最先进的CRITIC分数。与此前方法相比,我们的方法在现实场景中展现出了更强的适应性和广泛性,并提出了更优秀的结果识别机制,为该领域的进一步发展提供了有价值的研究洞见。识别改进:我们引入了一种新的基于聚类的方法,从成千上万个候选项中识别出好的重建结果,显著改进了以往依赖于训练集知识的方法。隐私风险揭示:我们的研究结果揭示了使用迁移学习训练的模型可能存在数据泄露的潜在隐私风险。

2024-08-12 09:06:59 1005

原创 CV每日论文--2024.7.23

给定一个带有特定概念标签的图像数据集,我们在文本空间中对示例中的概念进行排列,然后利用文本-图像扩散模型生成对应的图像。现有的图像模型解释方法,如激活图,仅限于像素空间中的基于实例的解释,难以理解模型的全局行为。相比之下,用于表格数据分类器的基于排列的解释方法通过比较对数据进行排列前后的模型性能,来衡量特征的重要性。我们进一步精心设计了基于多模态语言模型(MLLM)、基于检测和基于跟踪的评估指标,这些指标能更好地反映出七个提议类别的组合文本到视频生成质量,共有700个文本提示。

2024-08-12 09:05:45 1087

原创 PolyDiffusion速读

2024-08-05 11:53:36 428

原创 CV每日论文--2024.7.22

对于参数合并,我们的实证分析发现,当使用相同的预训练骨干网络时,简单的线性合并就足够了。我们的方法简单高效,在无需访问训练数据的情况下,仍能达到与基于联合训练数据的方法相当的性能。：我们提出了一种基于即时合成的方法来生成长序列的街景视图。我们在Google Street View的大规模数据集上训练了Streetscapes系统,并利用上下文地图数据,使用户能够生成基于任何所需城市布局的城市视图,并控制相机姿态。此外,我们引入了一种基于蒸馏的训练目标,以稳定大型模型的训练,从而导致一致的性能提升。

2024-07-22 09:08:16 1031

原创 CV每日论文--2024.7.19

我们提出了一种新颖的风格化运动扩散模型,称为SMooDi,可以生成由内容文本和风格运动序列驱动的风格化运动。最近,新方法展示了生成具有可控相机姿态视频的能力,利用了预训练的基于U-Net的扩散模型,显式地分离了空间和时间生成。通过引入对相机移动的精细控制,我们的方法为文本到视频合成模型开拓了新的可能性,为相关的内容创作、视觉效果和3D视觉应用提供了更强大的工具。总的来说,SMooDi是一种新颖而强大的模型,能够快速生成内容丰富、风格多样的运动,为各种应用提供了有价值的支持。

2024-07-22 09:07:02 860

原创 CV每日论文--2024.7.16

我们开发了理论和实际的计算技术,用于构建辐射场和从SPCs捕获的非传统、随机和高速二进制帧序列估计密集的相机姿态。：现有的深度学习方法在复杂场景中(包括杂乱的背景和半透明物体等)存在一个关键问题,即忽略了语义提示的重要性。因此,我们主张利用众包的方式来构建建筑领域的数据集,这有助于促进自主机器人系统在该领域的发展。结果表明,与现有方法相比,我们的FANet方法取得了最先进的分割性能。该工作通过创新性地融合语义提示,有效地解决了复杂场景下语义分割的关键问题,为该领域的进一步发展提供了新的方向。

2024-07-17 09:07:28 986

原创 CV每日论文--2024.7.15

当在推理过程中标签不可用时,我们的模型可以直接从输入数据中推断出必要的调节嵌入,这得益于在训练阶段学习的前馈网络。我们介绍了 StyleSplat,这是一种轻量级的方法,可在由参考样式图像的三维高斯表示的场景中为三维对象添加风格。我们的结果表明,DeCode 在泛化到未见数据方面显著优于传统的非调节模型,在降低计算成本的同时实现了更高的准确性。：本研究介绍了一种新的方法 DeCode,通过利用标签派生特征来支持解码器在重建过程中动态地进行模型调整,以提高训练效率,解决 3D 分割任务中模型性能提升的挑战。

2024-07-17 09:06:16 742

原创 CV每日论文--2024.7.12

为了克服4D训练数据有限的挑战,我们提倡在3D(仅含相机姿态)、4D(含姿态和时间)和视频(仅含时间)数据上进行联合训练,并提出了一种新的架构来实现这一点。为了对模型进行评估,我们引入了新的指标来补充和克服当前评估方案的不足,并展示了在保真度和姿态控制方面优于现有3D NVS扩散模型的最新结果,同时增加了处理时间动态的能力。然而,现有的开放式LMMs主要集中在单图像任务上,它们在多图像、多帧(视频)、多视角(3D)和多块(单图像)等更复杂的场景中的应用尚未得到充分探索。中文标题：作为动作模型的生成图像。

2024-07-12 09:16:39 1047

原创 CV每日论文--2024.7.11

在本文中,我们提出了一项名为无监督概念提取(UCE)的全新任务,它考虑了一个没有任何人类概念知识的无监督设置。然而,一个更实际且具有挑战性的场景是从单个图像中学习多个概念,这种情况下现有的方法严重依赖于广泛的人工标注。：学习从二维人物图像中表示三维人体姿势是一个具有挑战性的问题。此外,作者还提出了基本高斯表示的相关改进,包括使用广义核函数的方法,可以显著减少粒子命中数。3. 光线追踪技术能够处理不连贯的光线,实现诸如阴影和反射之类的二次光照效果,并支持从高度扭曲的相机进行渲染,以及随机采样光线等。

2024-07-12 09:15:33 1499

原创 CV每日论文--2024.7.10

在Video-STaR中,LVLM在指令生成和微调之间循环,这表明(I)可以改善一般视频理解,(II)并适应具有现有监督的新领域任务。虽然当前的物体幻觉研究主要集中在单个物体类别的存在上,而非个体实体,但本研究系统地调查了多物体幻觉,研究了当模型同时专注于多个物体时如何出现误判(例如发明不存在的物体或分心)。然而,对3D资产进行详细的编辑和定制仍然是一个长期存在的挑战。为此,我们引入了基于识别的物体探测评估(ROPE),这是一种自动化评估协议,考虑了单个图像中物体类别的分布,并使用视觉指示提示来消除歧义。

2024-07-12 09:14:27 941

原创 CV每日论文--2024.7.8

首先,作者正式建立了表示生物力学约束物理定律的偏微分方程(PDEs),将配准任务视为前向问题(即PDE的数据驱动解决方案),将识别任务视为反向问题(即参数估计)。为此,作者提出了一种新颖的框架VCHAR(基于方差的复杂人类活动识别)。VCHAR将原子活动的输出视为指定时间间隔内的分布,使用生成方法通过基于视频的解释阐明复杂活动分类的推理过程,这些解释对没有机器学习经验的用户也是可访问的。总之,DisCo-Diff通过引入离散潜变量,有效地简化了DMs的学习问题,展现了良好的效果和广泛的应用前景。

2024-07-09 09:03:14 665

原创 CV每日论文--2024.7.5

基于此,我们提出了一种新型的多模态优先偏好数据创建方式-偏见驱动幻觉抽样(BDHS),无需额外注释或外部模型,并展示其在一系列基准测试中可以达到与以前发布的工作相当的性能。通过在关键视频帧中使用多模态流损失无法察觉地嵌入水印,该方法能在保持观看体验的同时,防止视频型大语言模型的误用。总的来说,这种视频水印技术为保护视频内容提供了一种解决方案,在不断发展的视频型大语言模型技术面前确保了视频内容的完整性和保密性。中文标题：视频水印：保护您的视频免受基于视频的法学硕士的（未经授权）注释的影响。

2024-07-08 09:14:00 916

原创 CV每日论文--2024.7.4

此外，IXC-2.5通过引入额外的LoRA参数，增强了两项文本图像融合的应用场景：第一，能够创建结构化且内容丰富的网页；IXC-2.5凭借其强大的7B参数规模，展现了媲美GPT-4V的性能，即便是在处理包含24K交替图像与文本的复杂情境下，也能通过RoPE技术平稳地适应更长达96K的上下文环境。简而言之，面对SSVG任务的固有复杂性，本文提出的ACTRESS方案，通过增强模型置信度、优化伪标签质量以及促进全局最优解搜索，有效提升了基于Transformer的视觉定位模型在半监督环境下的表现。

2024-07-08 09:11:43 1042

原创 CV每日论文--2024.7.3

模型中全局的平面图和注意力设计确保了生成图像的一致性,从而可以重建完整的3D场景。与基于大型多模态模型的先前SAM方法相比,具有1.32B参数的EVF-SAM实现了显著更高的性能,同时减少了近82%的参数。为了解决这一挑战,本文提出了一种基于注意力的VoxelGridSR模型,可以直接在优化的体积上执行3D超分辨率(SR),以实现多视角一致性的SR。总之,本文提出的EVF-SAM方法通过利用文本提示编码器和早期视觉-语言融合,有效地改善了SAM的指代分割能力,在保持较小模型参数的同时取得了出色的性能。

2024-07-08 09:10:14 1166

原创 CV每日论文--2024.6.28

与依赖于自回归图像生成的方法相比,后者容易出现漂移和误差积累,MultiDiff同时合成一系列帧,可以产生高质量和多视角一致的结果,即使是具有大相机移动的长期场景生成,同时将推理时间降低一个数量级。基于ChronoMagic-Bench,我们对十个代表性的T2V模型进行了全面的手动评估,揭示了它们在不同提示类别下的优缺点,并提供了一个全面的评估框架,解决了视频生成研究中的当前差距。然而,3DGS的训练目前仅在单个GPU上进行,由于内存限制,它的处理高分辨率和大规模3D重建任务的能力受到限制。

2024-07-02 09:07:38 866

原创 CV每日论文--2024.6.27

为了解决这些问题,作者提出了一种创新的方法,称为Text-Animator,用于生成具有可视化文本的视频。此外,还开发了相机控制模块和文本细化模块,通过控制相机移动和可视化文本运动,提高了生成视觉文本的稳定性。广泛的基准测试结果表明,MG-LLaVA在参数量相当的情况下优于现有的MLLMs,展现了显著的效果。然而,在非结构化的视角和无法控制的照明条件下,观察到的信息可能不足以重建物体的外观属性。结果表明,我们的方法在使用极少的时间就能达到与之前工作相似的质量,并且还能提供关键的结果确定性信息。

2024-07-02 09:06:23 1117

原创 CV每日论文--2024.6.26

具体而言，StableNormal采用自顶向下的策略，首先借助一步法向量估算器（YOSO）快速生成初步但可信的法向量预测，随后通过语义指导的细化流程（SG-DRN）对预测结果进行精炼，以恢复关键的几何细节。为克服这些挑战，我们提出StableNormal，一种旨在降低推理不确定性的方法，它生成精确且清晰的法向量预测，同时避免了额外的整合环节。尽管当前学术探讨多聚焦于依托训练的策略，如条件适配器，然而我们认为，扩散模型内蕴的灵活性足以支撑起生成内容的精妙调控，而无需附加训练环节。

2024-06-27 09:04:54 1107

原创 CV每日论文--2024.6.25

但该领域面临一个核心挑战：预训练阶段设定的模型上下文长度存在固有限制，这对于多模态ICL尤为重要，特别是当涉及文本与图像的融合时，因额外的标注需求而更为凸显。有鉴于此，我们引入了“影像指挥家”（Image Conductor）概念，这是一种创新技术，能够仅从单一图片出发，创造视频素材，并实现对摄影机移动与物体动作的精细调控。广泛的定量与定性实验结果彰显了我们方法的优越性：即在依据图片生成动态视频时展现出的高度精确度与细致入微的操控能力，有力推进了交互式视频合成技术的实用化进程。

2024-06-27 09:03:34 962

原创 CV每日论文--2024.6.24

思维白板提示为多模态大型语言模型提供了一个隐喻性的"白板",让模型可以在图像形式上绘制出推理步骤,并将其反馈给模型进行进一步处理。实验结果表明,这种方法在涉及视觉和空间推理的多个困难自然语言任务上取得了最先进的性能,大大超越了仅使用链式文字推理的GPT-4o模型。而现有的大型语言模型则更擅长进行文字链式推理,在算术和符号推理任务上取得了不错的结果。2. 最近,文本到图像的扩散模型为FGVC数据集的增强提供了新的机会。总的来说,这是一个非常有价值的资源,集中了近期该领域的重要工作,并提供了全面的分析和展望。

2024-06-24 08:58:22 697

原创 CV每日论文--2024.6.21

与V1相比，这个版本通过三个关键实践获得了更加精细和稳健的深度预测：1）使用合成图像替代所有标记的真实图像，2）增加我们教师模型的容量，3）通过大规模伪标记真实图像的桥梁教授学生模型。除了模型本身，我们还构建了一个多功能的评估基准，包含精确的注释和多样的场景，以促进未来的研究，考虑到当前测试集的有限多样性和频繁噪声。我们主要展示了在计算机视觉中，将像素作为标记的有效性，经过深入研究的三个任务：监督学习中的目标分类、自监督学习中的掩码自编码，以及图像生成中使用的扩散模型。

2024-06-24 08:56:59 553

原创 CV每日论文--2024.6.20

最近的研究提出了一种学习镜像扩散模型（MDMs）的方法，在无约束空间中使用反向镜像映射来强制执行约束，但是对于复杂约束来说，分析镜像映射是具有挑战性的。我们验证了我们的方法在各种约束条件下的有效性，结果表明，与无约束扩散模型相比，基于NAMM的MDM显著提高了约束的满足度。我们还演示了如何在学习的镜像空间中轻松应用现有的基于扩散的逆问题求解器来解决受约束的逆问题。我们的实验结果表明，我们的方法在各种网络架构上（包括图像分类和生成任务）始终优于现有的深度压缩和层修剪方法。

2024-06-20 09:08:53 768

原创 CV每日论文--2024.6.19

值得注意的是,该方法直接处理NeRF的MLP权重,无需渲染图像或实现3D数据结构,就可以提取所表示物体的信息。与此同时,神经辐射场(NeRFs)通过在简单多层感知器(MLP)权重中编码信息,已成为一种越来越普及的新兴模态,能同时编码物体的几何形状和逼真外观。与之前优化每个码书条目的方法不同,VQGAN-LC从100,000个预训练视觉特征初始化码书,然后优化一个将特征分布对齐至码书的投影器。在这项研究中,作者提出使用扩散过程来建模每个标记的概率分布,从而允许在连续值空间中应用自回归模型。

2024-06-20 09:07:46 495

原创 CV每日论文--2024.6.18

为了提高多模态大型模型(MLLMs)在IITC任务上的性能,作者采用了多任务、多尺度的后训练策略,在IITC任务上设定了一个强大的基准,实现了85.8%的图像关联准确率和0.508的Rouge分数。实验结果显示,在保留更显著前景信息的同时,作者的方法可将3D-GS的平均渲染速度提高2.65倍,并在标准3D场景重建数据集上取得更高的图像质量度量。总的来说,这项研究提出了一个更具挑战性的IITC任务,突出了现有多模态模型的局限性,并为未来提高这类模型的图像-文本理解能力提供了新的方向。

2024-06-20 09:06:34 864

原创 CV每日论文--2024.6.17

尽管当前的视频大型多模态模型(LMM)利用了先进的大型语言模型(LLM),但它们依赖于图像或视频编码器来处理视觉输入,每个编码器都有其自身的局限性。而视频编码器提供时间上下文,但受到计算限制的影响,只处理低分辨率的稀疏帧,从而降低了上下文和空间理解能力。最近,xLSTM通过指数门控和可并行化的矩阵存储结构克服了长期存在的LSTM的局限性,成为一种可扩展和高性能的架构。3. 开发了一种775M参数的文本条件图像生成模型,经过LAION-COCO的两阶段训练,展示了视觉质量和文本对齐的竞争性表现。

2024-06-20 09:05:22 1197

原创 CV每日论文--2024.6.14

通常,训练单视角LRM的默认策略是使用大规模合成3D资源或多视角捕获的数据集,采用完全监督的方法进行训练。为了解决这些限制,本文提出了一种新颖的自我训练框架,可以同时利用现有的合成数据和多样化的单视角真实图像。这些编辑后的视图可以作为更新的数据集,以进一步训练和重新设计3D场景,从而得到最终的编辑后3D模型。此外,我们提倡一种交替训练的方式,确保全局和局部方面的平衡学习,因为端到端训练无法产生最佳结果。我们的实验结果表明,"少即是多"的模式,即利用更少但更有信息量的局部图像标记可以提高性能。

2024-06-14 09:09:21 1061

原创 CV每日论文--2024.6.13

它随机选择视频片段中的两个帧,遮盖其中一个帧的某些区域,并学习利用另一个帧的信息来恢复被遮盖的区域。总的来说,这种基于二元球面量化的分词器展示了在视觉数据压缩和重建、视频压缩以及生成模型应用等方面的出色性能,为相关领域的发展提供了有价值的技术探索。通过这种创新的一维标记化方法,TiTok展示了在高分辨率图像合成中的突出优势,为生成模型的进一步发展提供了有价值的探索方向。总的来说,这种"模仿式编辑"为用户提供了一种全新的创作方式,大大降低了图像编辑的门槛,值得在实际应用中进一步探索和推广。

2024-06-14 09:08:08 959

原创 customent: zero-shot object customization with variable-viewpoints in text-to-image diffusion models

最近，扩散模型已经成为文本到图像（T2I）生成的新基准模型（Nichol 等人，2021 年；Ramesh 等人，2022 年；Saharia 等人，2022 年；Rombach 等人，2022 年）。社会也应用了额外的多样控制条件来T2I扩散模型（Zhang 和 Agrawala，2023 年；Mou 等人，2023 年；Li 等人，2023c），如布局、风格和深度。定制作为扩散模型中的另一个控制维度，已经引起了人们的极大关注。它允许用户在保留其身份的同时将参考图像中的对象纳入生成的图像中。

2024-06-13 15:56:54 1081

原创速读：ControlCom: Controllable Image Composition using Diffusion Model

本文介绍了一种名为ControlCom的图像合成方法，该方法利用扩散模型进行图像融合、图像调和、视点合成和生成式合成等四个任务，并通过自监督训练框架和专门的数据准备管道进行了设计。此外，为了提高前景细节的保真度，作者还提出了局部增强模块。实验结果表明，该方法比现有方法能够生成更真实可控的复合图像。该文章提出了一种新的图像合成方法ControlCom，通过引入一个二维指示向量来控制图像合成过程中的属性调整，从而实现了可控的图像合成，并且在保持高保真度的同时提高了合成结果的质量。

2024-06-13 11:42:00 1207

原创翻译：Zero-shot Image Editing with Reference Imitation

近年来，得益于大规模预训练的文本到图像扩散模型的推动，编辑模型的能力范围也得到了显著扩展。用户只需简单指定源图像中的编辑区域（即白色遮罩）并提供一张“野外”参考图像，展示编辑后区域的预期效果，我们的模型就能自动捕捉两者之间的语义对应关系，并通过前馈网络执行完成编辑任务。综上所述，通过视频数据、丰富的数据增强以及优化的掩码策略，MimicBrush的训练策略旨在确保模型能够从多样化的训练样本中学习到如何有效地从参考图像中提取特征，并将其应用于源图像的指定区域，从而实现高质量的无样本图像编辑。

2024-06-13 11:27:39 1504

原创 CV每日论文--2024.6.12

感兴趣的读者可以进一步了解该方法的详细技术细节。为了支持VCR任务的研究,作者开发了一个流程来生成合成图像,并使用维基百科的图像和字幕构建了一个名为VCR-Wiki的数据集,包括211万个英文和34.6万个中文实体,并分为易和难两个变体。实验结果表明,MoMo优于当前的艺术水平,尤其是在无需进行特定应用程序训练的情况下,仍能在推断时应用于各种运动编辑任务,如合成分布之外的运动、风格转移和空间编辑等。实验结果表明,该方法在快速训练和渲染的同时,保持了高保真的渲染和几何重建,优于基于3DGS和NeRF的方法。

2024-06-13 09:14:21 1284

原创 CV每日论文--2024.6.11

同时,与直接应用3D-GS于大规模城市场景相比,GaussianCity通过紧凑的场景表示和空间感知解码器,克服了内存不足的问题,可以高效合成无限的3D城市。精致的规范图像与扩散先验的集成用于视频编辑。：这篇论文提出了一种名为"GaussianCity"的高效3D城市生成框架,解决了基于NeRF的方法和3D高斯喷洒(3D-GS)在无限尺度3D城市生成方面的局限性。2. 在训练的早期引入扩散先验,确保生成的规范图像保持高质量的自然外观,适用于视频编辑中的各种下游任务,这是当前基于规范的方法所无法实现的。

2024-06-13 09:13:05 1014

原创 CV每日论文--2024.6.7

后续解释方法(如Grad-CAM)因不影响模型性能而广受欢迎,但它们主要揭示了模型对输入"关注了哪里",却无法解释模型"在寻找什么"(比如对于将鸟类图像归类为Scott Oriole,模型认为哪些特征很重要)。现有的部件-原型网络利用部件原型(如Scott Oriole的翅膀和头部特征)来回答"关注了哪里"和"在寻找什么",但准确性通常不如它们的黑盒对应物。因此,研究人员提出了一种新的网络结构,即后续部件-原型网络。其次,作者提出了一种新的方法来处理ViT中的体积信息和位置编码,使其更适用于3D应用。

2024-06-11 09:22:14 352

原创 CV每日论文--2024.6.6

通过在CIFAR基准测试上的全面检验,DCSOD方法在广泛使用的体系结构和先前的NAS基线上实现了显著的OOD检测性能提升,AUROC提高了约1.0%,达到了最先进水平。总的来说,这项工作通过引入轻量级引导模型的方式,有效地提高了扩散模型的推理效率,同时保持了生成图像的视觉质量,为扩散模型在实际应用中的部署提供了重要的技术支撑。这种"即插即用"的功能极大地提高了推理计算效率。2. 采用创新的分布逼近机制,使重建的模态有助于设计的数据-模型共同蒸馏方案,引导在存在缺失模态的情况下的模型学习。

2024-06-11 09:20:50 776

原创 CV每日论文--2024.6.5

利用其可扩展的架构,研究人员能够在大规模的人类和机器人行为轨迹数据上预训练iVideoGPT,建立一个适应性强的基础模型。这个基础模型可以作为各种下游交互式任务(如基于动作的视频预测、视觉规划和基于模型的强化学习)的世界模型。这项工作推进了交互式通用世界模型的发展,缩小了生成视频模型和基于模型的强化学习应用之间的差距。首先介绍了一般算法的基本前提,然后从三个相互垂直的维度对文献进行了分类:进化生成器、优秀追求以及逼真的全景。最后,文章确定了该领域的一些挑战和开放性问题,并提出了未来研究和发展的潜在方向。

2024-06-11 09:18:53 522

原创 CV每日论文--2024.6.4

作者提出了一种称为谱正交分解适应(SODA)的方法,通过调整预训练权重的奇异值和它们的基向量来实现参数高效的适应。通过在文本到图像扩散模型上的广泛评估,研究证明了SODA的有效性,为现有微调方法提供了一种面向频谱的替代方案。：这篇论文提出了一种名为MiDiffusion的混合离散-连续扩散模型,用于从给定的房间类型、平面图和可能存在的物体中合成逼真的3D室内场景。：这篇论文提出了一种新颖的面向频谱的生成模型适应框架,旨在以参数高效的方式将大规模预训练生成模型适应于特定任务。

2024-06-04 09:02:55 552

原创 CV每日论文---2024.6.3

此外,CLIP的鲁棒性和可区分性还受益于更具描述性的语言监督、更大规模的数据以及更广泛的开放世界概念,这些是传统监督学习无法访问的。这些发现不仅揭示了CLIP在数据不平衡情况下推广性的机制,还为其他监督学习和自监督学习模型在不平衡数据上的训练提供了可转移的见解,使其能够达到CLIP级别的性能。总的来说,这种全新的数据驱动图像照明方法,克服了传统逆向图形方法的局限性,展现出更强大的建模能力,为图像照明问题带来了新的解决思路。中文标题：超越数据不平衡的泛化：针对可转移见解的 CLIP 的对照研究。

2024-06-04 09:01:41 1333

原创 CV每日论文--2024.5.31

该方法利用了LLM广泛的预训练所获得的先验世界知识,使其能够理解复杂的命令,从而即使用有限的三维数据集也能有效地"分割任何东西"。他们基于3D高斯喷洒,借助高效的渲染能力和点云的拓扑灵活性来构建这种方法。与之前的工作不同,作者将数字化人头的动态条件设置为神经参数头模型(NPHM)的丰富表情空间,而不是基于网格的3DMM。此外,这种无需训练的方法允许快速部署,可以作为未来研究的可行通用基线,用于各种领域的部件级三维(语义)对象理解,包括机器人技术、物体操作、部件组装、自动驾驶应用、AR/VR和医疗应用。

2024-05-31 09:00:42 1036

原创 CV每日论文--2024.5.30

进一步的比较实验表明,在相同模型大小下,DiG-XL/2 在1024分辨率下比最近基于 Mamba 的扩散模型快4.2倍,在2048分辨率下比 CUDA 优化的 FlashAttention-2下的 DiT 快1.8倍。首先,GFlow 将场景划分为静止和移动部分,然后应用顺序优化过程,基于2D先验和场景聚类优化相机姿态和3D高斯点的动态,确保邻近点之间的保真度和跨帧的平滑运动。本文提出了 GFlow,这是一个新的框架,旨在在没有任何相机参数的情况下,从单目视频中恢复动态的4D世界和相机姿态。

2024-05-31 08:59:17 1018

原创 CV每日论文--2024.5.29

为解决这个问题,本文提出了一种以物体为中心的表示方法,使用稀疏的3D语义高斯分布来描述3D场景,每个高斯分布表示一个感兴趣区域及其语义特征。：3D语义占空比预测是自动驾驶等视觉系统中一个重要的任务,目的是获取周围场景的3D几何和语义信息。实验结果表明,Reason3D在ScanNet和Matterport3D等大规模数据集上,在3D表述引用、3D问题回答和3D推理分割任务方面都取得了出色的性能。它首先生成一个粗略的位置估计,覆盖物体的大致区域,然后采用细致入微的分割策略,显著提高了物体识别和分割的准确性。

2024-05-30 08:59:03 1162

虚拟现实革命前夕：第四次工业革命的钥匙之一——VR&AR深度行业研究报告.pdf

exr2pngorjpg.py

SSIM和PSNR的python代码

基于CNN的图像搜索demo

用于机器学习各种床的图片资源

android实现秒表功能

空空如也