CV每日论文--2024.4.25

最新推荐文章于 2024-04-26 13:46:17 发布

计算机视觉每日论文

最新推荐文章于 2024-04-26 13:46:17 发布

阅读量916

点赞数 22

文章标签：计算机视觉人工智能深度学习算法机器学习

本文链接：https://blog.csdn.net/u012854516/article/details/138216430

版权

1、ID-Animator: Zero-Shot Identity-Preserving Human Video Generation

中文标题：ID-Animator：零镜头身份保护人类视频生成

简介：生成高度保真的人类视频，同时保持指定身份已经引起了内容生成社区的关注。然而，现有技术在训练效率和身份保留之间很难平衡，要么需要繁琐的逐案微调，要么在视频生成过程中常常丢失身份细节。在本研究中，我们提出了一种名为ID-Animator的零样本人类视频生成方法，它可以在不需要进一步训练的情况下执行个性化视频生成，仅需提供单张参考面部图像。ID-Animator建立在现有的基于扩散的视频生成骨干结构之上，并使用面部适配器来编码与身份相关的嵌入，这些嵌入从可学习的面部潜在查询中提取而来。为了提取视频生成过程中的身份信息，我们引入了一个面向身份的数据集构建流程，该流程结合了解耦的人类属性和动作字幕技术，从构建的面部图像池中获取数据。基于这个流程，我们进一步设计了一种随机面部参考训练方法，以精确捕捉参考图像中与身份相关的嵌入，从而提高我们的模型在身份特定视频生成方面的保真度和泛化能力。广泛的实验证明，ID-Animator在生成个性化人类视频方面优于先前的模型。此外，我们的方法与流行的预训练T2V模型（如animatediff）和各种社区骨干模型高度兼容，在需要高度保留身份的视频生成实际应用中具有很高的可扩展性。我们将在https://github.com/ID-Animator/ID-Animator上发布我们的代码和检查点。

2、From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation

中文标题：从部分到整体：可控人体图像生成的统一参考框架

简介：最近，可控制的人类图像生成技术取得了进展，通过结构信号（如姿势和深度）或面部外貌实现了零样本生成。然而，基于人类外貌多个部分的条件生成仍然具有挑战性。为了解决这个问题，我们引入了一个名为Parts2Whole的新框架，旨在从多个参考图像（包括姿势图像和人类外貌的各个方面）生成定制肖像。为了实现这一目标，我们首先开发了一个语义感知的外貌编码器，以保留不同人体部位的细节。该编码器将每个图像处理为一系列多尺度特征图，而不是单个图像标记，从而保留了图像的维度。其次，我们的框架通过一个共享的自注意机制来支持多图像条件生成，在扩散过程中操作参考和目标特征之间的关系。我们增强了基本的注意机制，将参考人类图像的掩码信息纳入其中，以实现对任意部位的精确选择。广泛的实验证明，我们的方法优于现有的替代方法，为多部位可控制的人类图像定制提供了先进的能力。请访问我们的项目页面https://huanngzh.github.io/Parts2Whole/获取更多信息。

3、TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting

中文标题：TalkingGaussian：通过高斯泼溅进行结构持久 3D 说话头合成

简介：Radiance fields在合成逼真的3D说话头像方面表现出色。然而，现有的方法通过直接修改点的外观来呈现面部运动，由于难以适应陡峭的外观变化，可能导致动态区域出现扭曲。为了应对这一挑战，我们引入了TalkingGaussian，这是一个基于变形的radiance fields框架，用于高保真度的说话头像合成。我们的方法利用基于点的高斯喷洒技术，通过对持久的高斯基元应用平滑和连续的变形来表示面部运动，而无需学习复杂的外观变化。由于这种简化，我们能够合成准确的面部运动，并保持高度完整的面部特征。在这种变形范例下，我们进一步解决了面部和口内运动不一致的问题，该问题会影响到详细说话运动的学习。为了解决这个冲突，我们将模型分解为两个分支，分别用于面部和口腔内部区域，从而简化了学习任务，有助于更准确地重建口腔区域的运动和结构。广泛的实验证明，与以前的方法相比，我们的方法能够呈现高质量的唇同步说话头像视频，具有更好的面部保真度和更高的效率。