数字人实战第四天——Echomimic项目部署教程

学术菜鸟小晨

已于 2024-09-18 16:54:28 修改

阅读量2.3k

点赞数 22

分类专栏：数字人技术文章标签：数字人

于 2024-09-18 15:44:17 首次发布

本文链接：https://blog.csdn.net/qq_34717531/article/details/142328441

版权

6 篇文章

订阅专栏

数字人实战第四天——Echomimic项目部署教程

一、 Echomimic简介

蚂蚁集团最近推出了一项名为EchoMimic的创新技术，这是一种通过音频和面部标志生成逼真肖像动画视频的先进技术。EchoMimic能够将用户的声音和面部动作完美复制到视频中，从而创造出镜子般自然的效果。这项技术的核心在于它能同时利用音频和面部标志点，克服了传统方法中的不稳定性和缺乏自然感。

在传统的视频动画生成中，依靠音频信号的方法虽然能够反映声音驱动的动作，但往往稳定性不足；而仅依赖面部关键点的方法虽然能捕捉到面部结构，但缺乏动态的自然流畅性。EchoMimic通过高度整合这两种技术，不仅保持了动画的稳定性，还增强了其自然度，使动画更加生动和逼真。

EchoMimic技术的一个重要特点是它对面部标志点的利用。面部标志点是指在面部图像上标记的关键位置，如眼睛、鼻子和嘴巴等，这些标记帮助计算机视觉算法分析和解读面部表情及动作。通过精确捕捉这些面部关键点，EchoMimic可以详细地模拟面部表情的微妙变化，例如嘴角的轻微上扬或眼神的转动。

此外，EchoMimic还具备多语言和多风格支持，无论是进行普通话、英语对话还是歌唱表演，都能准确地生成相应的动画视频。这使得EchoMimic不仅可以应用于娱乐和社交媒体，还能广泛应用于面部识别、表情识别、增强现实和医学成像等多个领域。

总的来说，EchoMimic的推出不仅标志着对传统视频生成技术的一次重大颠覆，也预示着技术在未来更广泛应用领域的潜力。随着这项技术的不断发展和完善，预计EchoMimic将在未来为我们提供更丰富和更逼真的视觉体验。

1.安装

  conda create -n echomimic python=3.8
  conda activate echomimic

  pip install -r requirements.txt

2.下载模型（下载30G的模型权重）

set HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download BadToBest/EchoMimic --local-dir pretrained_weights --exclude ".git"

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

  python -u infer_audio2vid.py
  python -u infer_audio2vid_pose.py

EchoMimic-main\configs\prompts 修改 animation.yaml

在对应位置放入自己的图片和音频。

运行：

  python -u infer_audio2vid.py

即可在output下看到合成的数字人了。合成速度非常慢。