数字人实战第四天——Echomimic项目部署教程
一、 Echomimic简介
蚂蚁集团最近推出了一项名为EchoMimic的创新技术,这是一种通过音频和面部标志生成逼真肖像动画视频的先进技术。EchoMimic能够将用户的声音和面部动作完美复制到视频中,从而创造出镜子般自然的效果。这项技术的核心在于它能同时利用音频和面部标志点,克服了传统方法中的不稳定性和缺乏自然感。
在传统的视频动画生成中,依靠音频信号的方法虽然能够反映声音驱动的动作,但往往稳定性不足;而仅依赖面部关键点的方法虽然能捕捉到面部结构,但缺乏动态的自然流畅性。EchoMimic通过高度整合这两种技术,不仅保持了动画的稳定性,还增强了其自然度,使动画更加生动和逼真。
EchoMimic技术的一个重要特点是它对面部标志点的利用。面部标志点是指在面部图像上标记的关键位置,如眼睛、鼻子和嘴巴等,这些标记帮助计算机视觉算法分析和解读面部表情及动作。通过精确捕捉这些面部关键点,EchoMimic可以详细地模拟面部表情的微妙变化,例如嘴角的轻微上扬或眼神的转动。
此外,EchoMimic还具备多语言和多风格支持,无论是进行普通话、英语对话还是歌唱表演,都能准确地生成相应的动画视频。这使得EchoMimic不仅可以应用于娱乐和社交媒体,还能广泛应用于面部识别、表情识别、增强现实和医学成像等多个领域。
总的来说,EchoMimic的推出不仅标志着对传统视频生成技术的一次重大颠覆,也预示着技术在未来更广泛应用领域的潜力。随着这项技术的不断发展和完善,预计EchoMimic将在未来为我们提供更丰富和更逼真的视觉体验。
二、环境部署
1.安装
conda create -n echomimic python=3.8
conda activate echomimic
pip install -r requirements.txt
2.下载模型(下载30G的模型权重)
set HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download BadToBest/EchoMimic --local-dir pretrained_weights --exclude ".git"
https://www.johnvansickle.com/ffmpeg/old-releases/ffmpeg-4.4-amd64-static.tar.xz
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
三、数字人合成
1.测试
python -u infer_audio2vid.py
python -u infer_audio2vid_pose.py
2.合成自己的数字人
EchoMimic-main\configs\prompts 修改 animation.yaml
在对应位置放入自己的图片和音频。
运行:
python -u infer_audio2vid.py
即可在output下看到合成的数字人了。合成速度非常慢。