一件部署安装百度开源数字人项目Hallo！图片视频！效果炸裂！含整合包！开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目：为唱歌和对话提供支持的AI数字人技术（附代码）

最新推荐文章于 2025-04-08 14:27:46 发布

代码讲故事

最新推荐文章于 2025-04-08 14:27:46 发布

阅读量3k

点赞数 24

分类专栏：智能工具文章标签：音视频数字人免费开源视频对话唱歌

本文链接：https://blog.csdn.net/u014374009/article/details/142182773

版权

智能工具专栏收录该内容

83 篇文章

订阅专栏

一件部署安装百度开源数字人项目Hallo！图片视频！效果炸裂！含整合包！开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目：为唱歌和对话提供支持的AI数字人技术（附代码）。

在这里插入图片描述

近日，AI领域迎来了一个重磅消息——百度联合复旦大学、苏黎世联邦理工学院和南京大学共同推出一个开源项目，名为"Hallo"。它能够通过上传图片并输入语音，生成与人物嘴唇同步、表情变化和姿态变化相匹配的动画。

官网：https://fudan-generative-vision.github.io/hallo/#/

01核心技术

Hallo的核心技术革新在于其引入的“交叉注意力机制”，该技术巧妙地在音频输入与视觉输出之间建立了精密的联动。

通过这种机制，Hallo能够实时地让声音与嘴唇运动、面部表情以及头部动作实现高度同步，从而呈现出流畅而自然的动画效果。

相较于传统技术，Hallo无需繁琐的中间处理步骤，即可直接生成高清逼真的动画视频，为用户带来前所未有的沉浸式体验。

在这里插入图片描述

Hallo的研究团队在技术创新上更进一步，引入“时间对齐技术”，这一技术确保了生成视频在时序上的连贯性和一致性。

通过精确的时间对齐，每一帧之间的动作过渡都显得流畅而自然，为用户带来更加逼真的视觉体验。

此外，研究团队还巧妙地结合了扩散生成模型和基于UNet的去噪器，这些技术的融合使得生成的动画不仅在视觉上保持了高度的保真度，还呈现出丰富细腻的细节。

02应用场景

经典电影致敬：通过动画技术向经典电影致敬。

在这里插入图片描述

虚拟角色：创建虚拟角色，用于游戏、电影或其他媒体。

在这里插入图片描述
真实人物：将真实人物的动作和表情转化为动画。

在这里插入图片描述
动作控制：精确控制角色的姿态、表情和嘴唇动作。

歌唱动画：生成与歌唱同步的动画。

在这里插入图片描述
跨演员表现：实现不同演员之间的表现转换。

03一键启动

步骤一
打开链接：https://pan.quark.cn/s/c0dde37654e0

步骤二
下载安装包至本地后双击即可一键启动，自动打开一个简单的用户界面

⇩

输入视频/音频

⇩

调整各种参数

⇩

就可以等待生成数字人啦

电脑配置如下：

Windows 10/11 64位操作系统

12G显存以上英伟达显卡

EchoMimic是蚂蚁集团最新推出的AI数字人开源项目，它能够为静态图像注入生命，赋予它们语音和表情的活力。利用深度学习技术，EchoMimic结合音频和面部特征点，创造出极具真实感的动态视频。这项技术不仅能够独立使用音频或面部特征来生成视频，还能将两者融合，实现更加自然流畅的口型同步效果。EchoMimic支持包括中文和英语在内的多种语言，尤其适合唱歌等多样化场景。其在娱乐、教育、虚拟现实等多个领域的应用，预示着数字人技术迎来了一次革命性的飞跃。

在这里插入图片描述
EchoMimic功能特色
音频同步动画
EchoMimic通过分析音频波形，能够精确地生成与语音同步的口型和面部表情，为静态图像带来生动的动态效果。

面部特征融合
利用先进的面部标志点技术，EchoMimic捕捉并模拟眼睛、鼻子、嘴巴等关键部位的运动，大大增强了动画的真实感。

多模态学习
结合音频和视觉数据，EchoMimic采用多模态学习方法，进一步提升了动画的自然度和表现力。

跨语言能力
支持中文普通话和英语等多种语言，EchoMimic能够满足不同语言区域用户的动画制作需求。

风格多样性
EchoMimic能够适应日常对话、歌唱等多种表演风格，为用户提供了广泛的应用场景。

在这里插入图片描述

安装及使用
1、下载代码

  git clone https://github.com/BadToBest/EchoMimic
  cd EchoMimic

2、 Python 环境设置

系统环境：

Centos 7.2/Ubuntu 22.04，Cuda >= 11.7

GPU：A100（80G）/ RTX4090D（24G）/ V100（16G）

Python 版本：3.8 / 3.10 / 3.11

创建 conda 环境：

  conda create -n echomimic python=3.8
  conda activate echomimic

安装软件包pip

  pip install -r requirements.txt

3、下载 ffmpeg-static

下载并解压ffmpeg-static，然后

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

4、下载预训练权重

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights

pretrained_weights的组织结构如下：

./pretrained_weights/
├── denoising_unet.pth
├── reference_unet.pth
├── motion_module.pth
├── face_locator.pth
├── sd-vae-ft-mse
│   └── ...
├── sd-image-variations-diffusers
│   └── ...
└── audio_processor
    └── whisper_tiny.pt

其中denoising_unet.pth / reference_unet.pth / motion_module.pth / face_locator.pth是EchoMimic的主要检查点。

5、音频驱动算法推理

运行python推理脚本：

  python -u infer_audio2vid.py

6、音频驱动算法推理自己的案例

编辑推理配置文件./configs/prompts/animation.yaml，添加自己的案例：

test_cases:
  "path/to/your/image":
    - "path/to/your/audio"

运行python推理脚本：

  python -u infer_audio2vid.py

在这里插入图片描述

项目地址
github: https://github.com/BadToBest/EchoMimic

官网：https://badtobest.github.io/echomimic.html

EchoMimic的推出不仅是阿里巴巴在数字人技术领域的一次重大突破，也是对现有技术的一次全面革新。传统肖像动画技术往往依赖单一的音频驱动或面部关键点驱动，各自拥有独特的优势。EchoMimic则巧妙地将这两种驱动方式融合，通过音频和面部关键点的双重训练，创造出更加逼真、自然的动态肖像效果。这一创新不仅提升了动画的表现力，也为数字人技术的发展开辟了新的可能性。

以下是20个免费开源的数字人项目，它们涵盖了虚拟人、数字角色生成、表情动画等多个领域，并分别介绍其主要特点和访问链接：