百度开源数字人项目Hallo,效果炸裂!
最近,AI领域又迎来了一个重磅消息——百度联合复旦大学、苏黎世联邦理工学院和南京大学共同推出了一个名为"Hallo"的开源项目。在音频驱动的肖像动画生成方面,这个项目取得了令人瞩目的进展。
🌟 项目背景
肖像图像动画,尤其是由语音音频输入驱动的动画,一直是计算机图形学中的一大难题。如何生成逼真且动态的肖像,同时确保面部动作与语音同步,是该领域研究的核心问题。
🚀 创新方法
Hallo项目摒弃了传统的参数模型,采用了一种全新的端到端扩散范式。通过一个层次化的音频驱动视觉合成模块,显著提高了音频输入与视觉输出之间的对齐精度,包括嘴唇、表情和姿态动作。
🛠️ 技术架构
-
扩散生成模型:利用基于扩散的生成模型来创建动画。
-
UNet去噪器:基于UNet的去噪技术,用于提高图像质量。
-
时间对齐技术:确保动画在时间上的连贯性。
-
参考网络:用于指导动画生成过程,提高个性化和多样性。
🎭 应用场景
-
经典电影致敬:通过动画技术向经典电影致敬。
-
虚拟角色:创建虚拟角色,用于游戏、电影或其他媒体。
-
真实人物:将真实人物的动作和表情转化为动画。
-
动作控制:精确控制角色的姿态、表情和嘴唇动作。
-
歌唱动画:生成与歌唱同步的动画。
-
跨演员表现:实现不同演员之间的表现转换。
学术Fun将上述工具制作成一键启动包,点击即可使用,避免大家配置环境出现各种问题,下载地址(电脑浏览器访问): https://xueshu.fun/4787/,在此页面右侧区域点击下载!
注意电脑配置如下
:
-
Windows 10/11 64位操作系统
-
12G显存以上英伟达显卡
下载使用教程
-
下载压缩包
下载地址(电脑浏览器访问): https://xueshu.fun/4787/,在此页面右侧区域点击下载!
-
解压
最好不要有中文路径,解压后,如下图所示,双击启动.exe
文件运行图片
-
浏览器访问
打开浏览器,访问http://127.0.0.1:7860/,即可在浏览器中使用
📊 研究成果
通过综合的定性和定量分析,Hallo项目在图像和视频质量、唇部同步精度以及动作多样性方面都显示出明显的提升。
🔗 更多信息
-
论文链接:arXiv
-
代码链接:Code
-
HuggingFace模型:HuggingFace
📚 结语
Hallo项目不仅推动了肖像动画技术的发展,也为个性化和多样化的动画创作提供了新的可能性。随着技术的不断进步,我们期待未来能够看到更多令人惊叹的动画作品。