自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(116)
  • 资源 (6)
  • 收藏
  • 关注

原创 CV每日论文--2024.6.14

通常,训练单视角LRM的默认策略是使用大规模合成3D资源或多视角捕获的数据集,采用完全监督的方法进行训练。为了解决这些限制,本文提出了一种新颖的自我训练框架,可以同时利用现有的合成数据和多样化的单视角真实图像。这些编辑后的视图可以作为更新的数据集,以进一步训练和重新设计3D场景,从而得到最终的编辑后3D模型。此外,我们提倡一种交替训练的方式,确保全局和局部方面的平衡学习,因为端到端训练无法产生最佳结果。我们的实验结果表明,"少即是多"的模式,即利用更少但更有信息量的局部图像标记可以提高性能。

2024-06-14 09:09:21 922

原创 CV每日论文--2024.6.13

它随机选择视频片段中的两个帧,遮盖其中一个帧的某些区域,并学习利用另一个帧的信息来恢复被遮盖的区域。总的来说,这种基于二元球面量化的分词器展示了在视觉数据压缩和重建、视频压缩以及生成模型应用等方面的出色性能,为相关领域的发展提供了有价值的技术探索。通过这种创新的一维标记化方法,TiTok展示了在高分辨率图像合成中的突出优势,为生成模型的进一步发展提供了有价值的探索方向。总的来说,这种"模仿式编辑"为用户提供了一种全新的创作方式,大大降低了图像编辑的门槛,值得在实际应用中进一步探索和推广。

2024-06-14 09:08:08 573

原创 customent: zero-shot object customization with variable-viewpoints in text-to-image diffusion models

最近,扩散模型已经成为文本到图像(T2I)生成的新基准模型(Nichol 等人,2021 年;Ramesh 等人,2022 年;Saharia 等人,2022 年;Rombach 等人,2022 年)。社会也应用了额外的多样控制条件来T2I扩散模型(Zhang 和 Agrawala,2023 年;Mou 等人,2023 年;Li 等人,2023c),如布局、风格和深度。定制作为扩散模型中的另一个控制维度,已经引起了人们的极大关注。它允许用户在保留其身份的同时将参考图像中的对象纳入生成的图像中。

2024-06-13 15:56:54 834

原创 速读:ControlCom: Controllable Image Composition using Diffusion Model

本文介绍了一种名为ControlCom的图像合成方法,该方法利用扩散模型进行图像融合、图像调和、视点合成和生成式合成等四个任务,并通过自监督训练框架和专门的数据准备管道进行了设计。此外,为了提高前景细节的保真度,作者还提出了局部增强模块。实验结果表明,该方法比现有方法能够生成更真实可控的复合图像。该文章提出了一种新的图像合成方法ControlCom,通过引入一个二维指示向量来控制图像合成过程中的属性调整,从而实现了可控的图像合成,并且在保持高保真度的同时提高了合成结果的质量。

2024-06-13 11:42:00 915

原创 翻译:Zero-shot Image Editing with Reference Imitation

近年来,得益于大规模预训练的文本到图像扩散模型的推动,编辑模型的能力范围也得到了显著扩展。用户只需简单指定源图像中的编辑区域(即白色遮罩)并提供一张“野外”参考图像,展示编辑后区域的预期效果,我们的模型就能自动捕捉两者之间的语义对应关系,并通过前馈网络执行完成编辑任务。综上所述,通过视频数据、丰富的数据增强以及优化的掩码策略,MimicBrush的训练策略旨在确保模型能够从多样化的训练样本中学习到如何有效地从参考图像中提取特征,并将其应用于源图像的指定区域,从而实现高质量的无样本图像编辑。

2024-06-13 11:27:39 1239

原创 CV每日论文--2024.6.12

感兴趣的读者可以进一步了解该方法的详细技术细节。为了支持VCR任务的研究,作者开发了一个流程来生成合成图像,并使用维基百科的图像和字幕构建了一个名为VCR-Wiki的数据集,包括211万个英文和34.6万个中文实体,并分为易和难两个变体。实验结果表明,MoMo优于当前的艺术水平,尤其是在无需进行特定应用程序训练的情况下,仍能在推断时应用于各种运动编辑任务,如合成分布之外的运动、风格转移和空间编辑等。实验结果表明,该方法在快速训练和渲染的同时,保持了高保真的渲染和几何重建,优于基于3DGS和NeRF的方法。

2024-06-13 09:14:21 534

原创 CV每日论文--2024.6.11

同时,与直接应用3D-GS于大规模城市场景相比,GaussianCity通过紧凑的场景表示和空间感知解码器,克服了内存不足的问题,可以高效合成无限的3D城市。精致的规范图像与扩散先验的集成用于视频编辑。:这篇论文提出了一种名为"GaussianCity"的高效3D城市生成框架,解决了基于NeRF的方法和3D高斯喷洒(3D-GS)在无限尺度3D城市生成方面的局限性。2. 在训练的早期引入扩散先验,确保生成的规范图像保持高质量的自然外观,适用于视频编辑中的各种下游任务,这是当前基于规范的方法所无法实现的。

2024-06-13 09:13:05 872

原创 CV每日论文--2024.6.7

后续解释方法(如Grad-CAM)因不影响模型性能而广受欢迎,但它们主要揭示了模型对输入"关注了哪里",却无法解释模型"在寻找什么"(比如对于将鸟类图像归类为Scott Oriole,模型认为哪些特征很重要)。现有的部件-原型网络利用部件原型(如Scott Oriole的翅膀和头部特征)来回答"关注了哪里"和"在寻找什么",但准确性通常不如它们的黑盒对应物。因此,研究人员提出了一种新的网络结构,即后续部件-原型网络。其次,作者提出了一种新的方法来处理ViT中的体积信息和位置编码,使其更适用于3D应用。

2024-06-11 09:22:14 266

原创 CV每日论文--2024.6.6

通过在CIFAR基准测试上的全面检验,DCSOD方法在广泛使用的体系结构和先前的NAS基线上实现了显著的OOD检测性能提升,AUROC提高了约1.0%,达到了最先进水平。总的来说,这项工作通过引入轻量级引导模型的方式,有效地提高了扩散模型的推理效率,同时保持了生成图像的视觉质量,为扩散模型在实际应用中的部署提供了重要的技术支撑。这种"即插即用"的功能极大地提高了推理计算效率。2. 采用创新的分布逼近机制,使重建的模态有助于设计的数据-模型共同蒸馏方案,引导在存在缺失模态的情况下的模型学习。

2024-06-11 09:20:50 644

原创 CV每日论文--2024.6.5

利用其可扩展的架构,研究人员能够在大规模的人类和机器人行为轨迹数据上预训练iVideoGPT,建立一个适应性强的基础模型。这个基础模型可以作为各种下游交互式任务(如基于动作的视频预测、视觉规划和基于模型的强化学习)的世界模型。这项工作推进了交互式通用世界模型的发展,缩小了生成视频模型和基于模型的强化学习应用之间的差距。首先介绍了一般算法的基本前提,然后从三个相互垂直的维度对文献进行了分类:进化生成器、优秀追求以及逼真的全景。最后,文章确定了该领域的一些挑战和开放性问题,并提出了未来研究和发展的潜在方向。

2024-06-11 09:18:53 418

原创 CV每日论文--2024.6.4

作者提出了一种称为谱正交分解适应(SODA)的方法,通过调整预训练权重的奇异值和它们的基向量来实现参数高效的适应。通过在文本到图像扩散模型上的广泛评估,研究证明了SODA的有效性,为现有微调方法提供了一种面向频谱的替代方案。:这篇论文提出了一种名为MiDiffusion的混合离散-连续扩散模型,用于从给定的房间类型、平面图和可能存在的物体中合成逼真的3D室内场景。:这篇论文提出了一种新颖的面向频谱的生成模型适应框架,旨在以参数高效的方式将大规模预训练生成模型适应于特定任务。

2024-06-04 09:02:55 458

原创 CV每日论文---2024.6.3

此外,CLIP的鲁棒性和可区分性还受益于更具描述性的语言监督、更大规模的数据以及更广泛的开放世界概念,这些是传统监督学习无法访问的。这些发现不仅揭示了CLIP在数据不平衡情况下推广性的机制,还为其他监督学习和自监督学习模型在不平衡数据上的训练提供了可转移的见解,使其能够达到CLIP级别的性能。总的来说,这种全新的数据驱动图像照明方法,克服了传统逆向图形方法的局限性,展现出更强大的建模能力,为图像照明问题带来了新的解决思路。中文标题:超越数据不平衡的泛化:针对可转移见解的 CLIP 的对照研究。

2024-06-04 09:01:41 1126

原创 CV每日论文--2024.5.31

该方法利用了LLM广泛的预训练所获得的先验世界知识,使其能够理解复杂的命令,从而即使用有限的三维数据集也能有效地"分割任何东西"。他们基于3D高斯喷洒,借助高效的渲染能力和点云的拓扑灵活性来构建这种方法。与之前的工作不同,作者将数字化人头的动态条件设置为神经参数头模型(NPHM)的丰富表情空间,而不是基于网格的3DMM。此外,这种无需训练的方法允许快速部署,可以作为未来研究的可行通用基线,用于各种领域的部件级三维(语义)对象理解,包括机器人技术、物体操作、部件组装、自动驾驶应用、AR/VR和医疗应用。

2024-05-31 09:00:42 853

原创 CV每日论文--2024.5.30

进一步的比较实验表明,在相同模型大小下,DiG-XL/2 在1024分辨率下比最近基于 Mamba 的扩散模型快4.2倍,在2048分辨率下比 CUDA 优化的 FlashAttention-2下的 DiT 快1.8倍。首先,GFlow 将场景划分为静止和移动部分,然后应用顺序优化过程,基于2D先验和场景聚类优化相机姿态和3D高斯点的动态,确保邻近点之间的保真度和跨帧的平滑运动。本文提出了 GFlow,这是一个新的框架,旨在在没有任何相机参数的情况下,从单目视频中恢复动态的4D世界和相机姿态。

2024-05-31 08:59:17 836

原创 CV每日论文--2024.5.29

为解决这个问题,本文提出了一种以物体为中心的表示方法,使用稀疏的3D语义高斯分布来描述3D场景,每个高斯分布表示一个感兴趣区域及其语义特征。:3D语义占空比预测是自动驾驶等视觉系统中一个重要的任务,目的是获取周围场景的3D几何和语义信息。实验结果表明,Reason3D在ScanNet和Matterport3D等大规模数据集上,在3D表述引用、3D问题回答和3D推理分割任务方面都取得了出色的性能。它首先生成一个粗略的位置估计,覆盖物体的大致区域,然后采用细致入微的分割策略,显著提高了物体识别和分割的准确性。

2024-05-30 08:59:03 883

原创 CV每日论文--2024.5.28

为了解决这一问题,本文提出了一种新颖的文本引导方法,用于生成情感表达丰富的2D化身,提供细粒度控制、改进的交互性和对生成视频的泛化能力。FastDrag为快速、精准的基于拖动的图像编辑提供了新的解决方案。:近期,说话化身生成模型在实现与音频的逼真和准确的唇部同步方面取得了进展,但往往无法充分控制和传达化身的细腻表情和情感,导致生成视频缺乏生动性和可控性。在技术上,我们设计了一个自动注释流水线来构建指令-视频配对的训练数据集,并开发了一个新颖的基于扩散的双分支生成器,可以同时预测带有音频和文本指令的化身。

2024-05-30 08:57:19 707

原创 CV每日论文--2024.5.27

尽管仅在合成的多视角视频数据上进行训练,但零样本的真实世界泛化实验在多个领域展现出了有希望的结果,包括机器人技术、物体永恒性和驾驶环境。总的来说,这种DMD2方法在单步图像生成任务中取得了新的基准,在ImageNet-64x64和零样本COCO 2014数据集上取得了优秀的FID指标,同时还大幅降低了推理成本。与之前的方法相比,我们的模型在合成含有闪亮物体的场景时表现更优,并且是目前唯一能在实际场景中合成逼真镜面外观和反射的NeRF方法,同时所需的优化时间也与当前最先进的视图合成模型相当。

2024-05-27 09:24:50 367

原创 CV每日论文--2024.5.24

AM-RADIO不仅在多个基准测试中超越了单个教师模型的性能,而且还保留了教师模型的独特特征,如零样本视觉语言理解、精细的像素级理解和开放词汇的分割能力。为了实现最高的硬件效率,研究人员在多教师蒸馏管道中评估了许多架构,最终开发了一种新颖的架构-E-RADIO,它在性能上超越了前身,并且至少比教师模型快7倍。本教程旨在介绍扩散模型的基本思想。(4)在23个具有挑战性的数据集上的实验表明,作者提出的方法以5.75%的平均绝对误差设置了SoTA,比该任务先前的SoTA提高了29.62%。

2024-05-27 09:23:39 1002

原创 翻译AnyDoor: Zero-shot Object-level Image Customization

摘要本研究介绍了AnyDoor,这是一款基于扩散模型的图像生成器,能够在用户指定的位置,以期望的形状将目标对象传送到新场景中。与为每个对象调整参数不同,我们的模型仅需训练一次,就能在推理阶段轻松地泛化到多样化的对象-场景组合。这种具有挑战性的零样本设置需要对特定对象进行充分的表征。为此,我们补充了常用的身份特征与细节特征,这些细节特征经过精心设计,既能保持外观细节,又允许多样化的局部变化(例如,照明、方向、姿势等),支持对象与不同环境的融合。我们进一步提出从视频数据集中借用知识,在那里我们可以观察到

2024-05-25 11:58:34 995

原创 CV每日论文--2024.5.23

当前的人脸重建和交换方法主要依赖于GAN框架,但最近人们更多关注于预训练的扩散模型,因为它们具有更强大的生成能力。在多个不同图像领域的数据集上进行的全面实验表明,OmniGlue相比可直接比较的参考模型,在未见过领域上取得了20.9%的性能提升。总之,OmniGlue是一种基于基础模型知识的通用图像匹配方法,在新领域的泛化能力上表现良好,为实际应用提供了新的可能性。总的来说,这篇文章提出了两种创新的方法,在保持生成质量的同时大幅提高了概念驱动的文本到图像生成的效率。

2024-05-23 10:47:33 781

原创 CV每日论文--2024.5.22

3. 本文提出了一种根本不同的方法,该方法基于观察到自然视频的时空切片具有类似于自然图像的特征。该方法简单而零样本,利用预训练的文本到图像和文本到声谱图的扩散模型,它们在共享的潜在空间中进行操作。与以前的通用NeRF方法相比,MVSGaussian实现了实时渲染,每个场景的合成质量更好,通常只需要几分钟的微调和每个图像几秒钟的渲染时间。3) 为支持快速的场景特定微调,我们引入了一种多视角几何一致性聚合策略,有效地聚合通用模型生成的点云作为每个场景优化的初始化。中文标题:多视图立体的快速广义高斯泼溅重建。

2024-05-23 10:46:08 590

原创 CV每日论文--2024.5.21

这种方法既具有NeRFs在不同视角上的更高PSNR、SSIM和LPIPS性能,以及更紧凑的表示优势,又具有GS实时渲染和易于修改表示的优势。针对这一数据集,我们提出了PSG4DFormer - 一种基于Transformer的模型,可以预测全景分割掩模、跟踪掩模的时间变化,并通过关系组件生成相应的场景图。然而,GS方法的渲染速度要快得多。为了促进这一新兴研究领域,我们构建了一个包含3K个RGB-D视频、总计1M帧的丰富PSG-4D数据集,每帧都有4D全景分割掩模和精细的动态场景图标签。

2024-05-21 09:08:11 525

原创 CV每日论文--2024.5.20

我们的方法旨在纠正2D绘图的不一致性,以恢复合理的3D结构,使新的绘图结果能够彼此协调一致。我们的工作流程包括用户友好的注释工具、相机姿态估计和图像变形,从而恢复密集的3D结构表征。:在这项工作中,我们探索了从非几何一致的卡通和动漫手绘图像中恢复潜在的3D结构。然而,人类仍能从这些不一致的输入中感知3D场景。:3D重建技术的进步使得高质量的3D捕捉成为可能,但创建一个3D场景通常需要用户收集数百到数千张图像。这些生成的视角可以作为输入,使用强大的3D重建技术来产生3D表示,并实时从任何视角进行渲染。

2024-05-21 09:06:38 353

原创 CV每日论文--2024.5.17

这些VFM,如CLIP、DINOv2和SAM,通过不同的训练目标展现了各自的特点,适用于不同的下游任务。为了追求最高效的硬件支持,研究人员评估了多种架构在多教师蒸馏管道中的表现,最终开发出了一种新颖的E-RADIO架构,其性能超越了前代模型,计算效率也至少是教师模型的7倍。将这两个新组件整合在"StoryDiffusion"框架中,可以使用一致的图像或视频描述基于文本的故事,生成丰富多样的内容。重新审视了卷积神经网络在特征检测、提取和匹配方面的基本设计,满足了快速和稳健的算法在资源受限设备上使用的需求。

2024-05-17 09:26:32 576

原创 CV每日论文--2024.5.16

我们的实验结果表明,通过从训练中排除高度模糊的数据,可以提高最先进的行人检测器在LAMR、精度和F1分数等模型性能上的表现,同时节省训练时间和注释成本。在训练的早期阶段,模型主要学习识别数据中一些"容易学习"的判别模式。基于这些发现,我们提出了一种课程表的方法,其中模型始终利用每个学习阶段的所有训练数据,但首先暴露于每个示例中的"容易学习"模式,然后逐渐引入更难的模式。通过广泛的实验,我们在PASCAL-$5^i$和COCO-$20^i$数据集上验证了我们方法的性能,取得了在FSS方面的最先进结果。

2024-05-17 09:25:21 738

原创 CV每日论文--2024.5.15

为了量化这些注入的高频信息,作者还引入了一种称为Frequency Spectrum Distribution Similarity (FSDS)的图像对图像的度量方法,它可以捕捉传统度量忽略的细微差别。LoRAdapter是一种高效、强大且与架构无关的方法,可以用于调节文本到图像扩散模型,在生成过程中实现细粒度的控制调节,并且优于现有的最先进方法。:这篇论文介绍了一种新的可学习提示调整方法,该方法超越了仅对视觉语言模型进行微调的传统方法,成为一种潜在的资源高效替代方案。

2024-05-16 09:21:39 406

原创 CV每日论文--2024.5.14

将单张图像转换为可编辑的动态3D模型并生成视频,是单张图像到3D表示或图像的3D重建研究领域中的新方向和变革。结合我们提出的可重新编辑的动作分析和控制算法,我们可以实现比目前最先进项目更好的性能,包括在构建3D模型的精确动作控制和生成具有输入文本指令的稳定语义连续的无限时长3D视频方面。该项目的代码是开源的。尽管近年来,基于学习的网格去噪方法取得了显著进展,但它们的网络设计通常存在两个主要缺点:依赖于单一的几何表示,无法捕捉网格的多方面属性,并且缺乏有效的全局特征聚合,限制了对网格综合结构的充分理解。

2024-05-16 09:20:24 451

原创 CV每日论文--2024.5.13

通过对潜在的时空空间进行标记化,并结合可学习的占位符,如[nextline]和[nextframe]标记,Lumina-T2X在各种时空分辨率下无缝地统一了不同模态的表示。我们的实验结果表明,随着自编码器的改进,我们的方法不断提高,并在VFI领域实现了最先进的性能,展现出进一步增强的巨大潜力。我们的方法将扩散提炼视为一种成对图像到图像转换任务,利用扩散模型的ODE轨迹中的噪声到图像的映射。此外,我们改进了扩散模型,构建了一个多尺度鉴别器,并引入了文本对齐损失,以构建一个高效的条件GAN模型。

2024-05-14 09:04:33 803

原创 CV每日论文--2024.5.10

具体而言,我们开发了一种新的排名算法"广义加权页面排名(G-WPR)"来识别冗余标记,并提出了一种基于相似性的恢复方法来恢复卷积操作的标记。广泛的评估结果表明,AT-EDM在提高效率方面表现出色,例如,与Stable Diffusion XL相比,可节省38.8%的FLOPs,并提高了1.53倍的速度,同时保持了与完整模型几乎相同的FID和CLIP分数。:扩散模型在生成高质量和多样化图像方面取得了出色的表现,但其卓越性能是以昂贵的架构设计为代价的,特别是广泛使用注意力模块。

2024-05-14 09:02:56 819

原创 CV每日论文--2024.5.9

基于这些洞察,我们将触觉信号注册到捕获的视觉场景中,并训练一个条件扩散模型,用于从神经辐射场渲染的RGB-D图像生成相应的触觉信号。为了评估这种方法,我们收集了一个新的TaRF数据集,其包含更丰富的触觉采样和与之配对的视觉信息。:现有的基于扩散的视频编辑方法在运动编辑领域取得了显著进展。大多数方法专注于将视频和参考视频的运动对齐,但并没有限制视频背景和对象内容的保持不变,因此可以生成出人意料的视频内容。总之,本文提出的这两种新型激活函数在分类任务中展示了优异的表现,可以作为针对特定问题的替代选择。

2024-05-09 10:56:59 705

原创 CV每日论文--2024.5.8

我们在室外基准测试中的实验结果显示,Cube-LLM在Talk2Car数据集的3D基础推理方面相较于现有基线提高了21.3个AP-BEV点,在DriveLM数据集的复杂推理方面提高了17.7个点。然而,现有的视频-LMMs基准主要关注一般视频理解能力,忽略了对它们在复杂视频中推理能力和在用户提示作为文本查询的情况下模型的鲁棒性进行评估。我们评估了9个最近的模型,包括开源和闭源变体,并发现大多数Video-LMMs,特别是开源模型,在处理复杂视频时都存在鲁棒性和推理方面的困难。

2024-05-09 10:55:51 889 1

原创 CV每日论文--2024.5.7

现有的视觉语言模型(VLM)可以在2D视频中跟踪野外物体,而最新的生成模型已经提供了强大的视觉先验,可以合成高度不受限制的2D到3D对象。除了4D场景生成,我们的方法还可以通过将推断的3D轨迹投影到2D上来实现精确的2D点运动跟踪,而无需进行专门的训练。对于物体运动的建模,我们先利用物体中心帧的渲染损失和多视角生成先验来建模物体的中心变形,然后通过将渲染输出与感知像素和光流进行比较,优化物体从中心到世界坐标系的变换。总之,这种基于抖动的二值激活函数设计可以在保留特征细节的同时提升二进制神经网络的性能。

2024-05-07 09:10:30 525

原创 CV每日论文--2024.5.6

为了充分利用大量异构的驾驶数据,论文首先将不同传感器在多个场景下采集的数据进行整合,然后在训练过程中对数据、特征和标签空间进行对齐。为解决这一问题,本文提出可训练的概念干预重新对齐模块,利用概念之间的关系,在干预后对概念分配进行重新调整。研究发现,这主要是由于干预过程中各概念独立处理的问题,一个概念的修改并不影响模型对其他概念的使用。:这篇论文介绍了概念瓶颈模型(CBMs),它以人类可理解的概念为基础进行图像分类,从而实现可解释的模型决策。中文标题:通过概念重新对齐提升干预措施在概念瓶颈模型中的成效。

2024-05-07 09:09:19 336

原创 CV每日论文--2024.4.29

它将视频隐写的脆弱性与深度鲁棒的水印技术相结合,能够将不可见的视听本地化水印和版权水印嵌入原始视频帧和音频中,实现精确的篡改定位和版权保护。:AI生成的视频技术已经彻底改变了短视频制作、电影制作和个性化媒体的创作方式,使视频本地编辑成为不可或缺的工具。我们展示了该模型在涵盖不同场景和对象类型的多个视频设置中的应用,成功发现了未见过的序列中的物体级和环境变化。"Make-it-Real"提供了一种流畅集成到3D内容创作工作流程中的方法,展现了其作为3D资产开发人员重要工具的实用性。

2024-05-07 09:07:52 785

原创 大模型(LLM)调用API论文研究合集

此外,为了提高模型的实用性,论文还引入了一个神经API检索器组件,用于为每个指令推荐合适的API接口。:Toolformer是一个新型的自监督学习语言模型,它在不牺牲核心语言建模能力的情况下,显著提升了在各种下游任务中的零样本性能,与更大型的模型相比也能保持竞争力。总的来说,Toolformer提供了一种新的自监督模型训练方法,能够在不牺牲语言理解能力的前提下,显著提升语言模型在实际应用中的性能和竞争力。总的来说,API-BLEND为训练和评测能够有效利用工具和API的LLM提供了一个全面的数据基础。

2024-04-28 15:52:31 699

原创 CV每日论文--2024.4.26

随着文本到图像和图像到图像生成模型的不断成熟,人工智能生成的图像(AGIs)在广告、娱乐、教育、社交媒体等领域展示了巨大的应用潜力。具体来说,受人类视觉系统的特点启发,同时受到“视觉质量”和“真实性”都具有局部和全局特征的观察启发,AMFF-Net对图像进行了放大和缩小,并将缩放后的图像和原始大小的图像作为输入,以获得多尺度特征。此外,考虑到图像和提示之间的相关性,AMFF-Net比较文本编码器和图像编码器的语义特征,以评估文本到图像的对齐情况。(4)强大的生成性能,源于对具体细节细化的强调。

2024-04-26 13:46:17 616 2

原创 CV每日论文--2024.4.25

基于这个流程,我们进一步设计了一种随机面部参考训练方法,以精确捕捉参考图像中与身份相关的嵌入,从而提高我们的模型在身份特定视频生成方面的保真度和泛化能力。广泛的实验证明,我们的方法优于现有的替代方法,为多部位可控制的人类图像定制提供了先进的能力。我们的方法利用基于点的高斯喷洒技术,通过对持久的高斯基元应用平滑和连续的变形来表示面部运动,而无需学习复杂的外观变化。广泛的实验证明,与以前的方法相比,我们的方法能够呈现高质量的唇同步说话头像视频,具有更好的面部保真度和更高的效率。

2024-04-26 13:44:08 851

原创 CV每日论文--2024.4.24

我们提出了GeoDiffuser,这是一种零样本基于优化的方法,将常见的2D和3D基于图像的对象编辑功能统一到一个方法中。作者展示了他们的方法在各种具有挑战性的示例中可以重建高质量的可动画3D人体,包括遮挡、图像裁剪、少量样本和极度稀疏的观察。:我们提出了一种新颖的交叉参考图像质量评估方法,填补了图像评估领域的空白,补充了各种已建立的评估方案,包括全参考度量(如SSIM),无参考度量(如NIQE),以及一般参考度量(包括FID)和多模态参考度量(例如CLIPScore)。中文标题:跨视图评估和打分。

2024-04-24 09:12:21 600

原创 CV每日论文--2024.4.23

在本研究中,我们对3D高斯核进行了重新思考,将其视为从描述场景物理表示的潜在概率分布中抽取的随机样本,换句话说,是马尔可夫链蒙特卡罗(MCMC)样本。与MCMC类似,样本只是过去的访问位置,我们的框架下添加新的高斯核可以简单地实现,只需将高斯核放置在现有高斯核位置即可。为了增强训练效率和利用更多的几何监督,例如深度和法线,我们将可微分的等值面提取模块集成到我们的框架中,并直接在网格表示上进行优化。:我们提出了一种名为ZeST的方法,用于在给定材质示例图像的情况下,实现对输入图像中对象的零样本材质转移。

2024-04-24 09:10:54 486

原创 CV每日论文--2024.4.22

尽管人类的平均准确率达到了95.70%,但对于现有的多模态LLMs来说,Blink是非常具有挑战性的:即使是最佳表现的GPT-4V和Gemini模型的准确率也只有51.26%和45.72%,仅比随机猜测高出13.17%和7.63%。该任务的目标是在不受预定义类别限制的情况下对图像中的实体进行分割,具有在未见过的图像和概念上令人印象深刻的泛化能力。我们的方法使用原始图像作为唯一的训练数据,在自监督开放世界分割方面取得了前所未有的性能,标志着在没有人工注释掩模的情况下实现高质量的开放世界实体分割的重要里程碑。

2024-04-22 09:17:25 864 3

虚拟现实革命前夕:第四次工业革命的钥匙之一——VR&AR深度行业研究报告.pdf

虚拟现实革命前夕:第四次工业革命的钥匙之一——VR&AR深度行业研究报告.pdf

2020-10-15

exr2pngorjpg.py

python版本EXR文件转PNG或JPG格式,无损转换,可以直接运行,还可以画三通道的直方图,还有详细的EXR格式介绍

2020-09-10

SSIM和PSNR的python代码

SSIM和PSNR的python实现代码,可用于计算图片之间的差异,直接运行即可,有任何问题可以评论提出

2020-09-02

基于CNN的图像搜索demo

基于CNN的图像搜索demo ,基于python实现,可以在web上查看实现效果

2018-06-29

用于机器学习各种床的图片资源

该资源保护各种床的图片资源,可以用于机器学习的训练数据

2018-06-20

android实现秒表功能

实现秒表功能,可以设置计时时间,开始,暂停,停止

2014-06-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除