数字人实战第四天——Echomimic项目部署教程

数字人实战第四天——Echomimic项目部署教程

一、 Echomimic简介

蚂蚁集团最近推出了一项名为EchoMimic的创新技术,这是一种通过音频和面部标志生成逼真肖像动画视频的先进技术。EchoMimic能够将用户的声音和面部动作完美复制到视频中,从而创造出镜子般自然的效果。这项技术的核心在于它能同时利用音频和面部标志点,克服了传统方法中的不稳定性和缺乏自然感。

在传统的视频动画生成中,依靠音频信号的方法虽然能够反映声音驱动的动作,但往往稳定性不足;而仅依赖面部关键点的方法虽然能捕捉到面部结构,但缺乏动态的自然流畅性。EchoMimic通过高度整合这两种技术,不仅保持了动画的稳定性,还增强了其自然度,使动画更加生动和逼真。

EchoMimic技术的一个重要特点是它对面部标志点的利用。面部标志点是指在面部图像上标记的关键位置,如眼睛、鼻子和嘴巴等,这些标记帮助计算机视觉算法分析和解读面部表情及动作。通过精确捕捉这些面部关键点,EchoMimic可以详细地模拟面部表情的微妙变化,例如嘴角的轻微上扬或眼神的转动。

此外,EchoMimic还具备多语言和多风格支持,无论是进行普通话、英语对话还是歌唱表演,都能准确地生成相应的动画视频。这使得EchoMimic不仅可以应用于娱乐和社交媒体,还能广泛应用于面部识别、表情识别、增强现实和医学成像等多个领域。

总的来说,EchoMimic的推出不仅标志着对传统视频生成技术的一次重大颠覆,也预示着技术在未来更广泛应用领域的潜力。随着这项技术的不断发展和完善,预计EchoMimic将在未来为我们提供更丰富和更逼真的视觉体验。

二、环境部署

1.安装

GitHub - BadToBest/EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning

  conda create -n echomimic python=3.8
  conda activate echomimic

  pip install -r requirements.txt

2.下载模型(下载30G的模型权重)

set HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download BadToBest/EchoMimic --local-dir pretrained_weights --exclude ".git"

 https://www.johnvansickle.com/ffmpeg/old-releases/ffmpeg-4.4-amd64-static.tar.xz

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

 三、数字人合成

1.测试

  python -u infer_audio2vid.py
  python -u infer_audio2vid_pose.py

 

 2.合成自己的数字人

EchoMimic-main\configs\prompts  修改  animation.yaml

在对应位置放入自己的图片和音频。

运行:

  python -u infer_audio2vid.py

即可在output下看到合成的数字人了。合成速度非常慢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

学术菜鸟小晨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值