阿里开源数字人EchoMimic，支持长视频！

学术Fun

于 2024-07-14 16:06:17 发布

阅读量158

点赞数 2

文章标签：图像处理开源 AIGC 人工智能计算机视觉

本文链接：https://blog.csdn.net/duoshehuan6005/article/details/140418265

版权

前不久，蚂蚁集团发布了一项名为EchoMimic的创新技术，成功吸引了业内外的广泛关注。EchoMimic能够通过音频和面部标志点生成逼真的音画同步肖像视频，这项技术的出现，彻底突破了传统肖像动画视频生成的局限。

图片

简而言之，EchoMimic的核心在于结合音频和面部标志点，使生成的视频不仅稳定性更高，还更加自然。

传统方法仅依赖音频信号，容易导致视频不稳定。EchoMimic通过结合音频和面部标志点，显著提升了视频的稳定性。

仅使用面部关键点生成的视频可能显得不自然。EchoMimic通过平衡音频和面部标志点，使视频更符合实际面部运动。

上述 AI 工具已经制作成了一键启动包，你只需点击即可使用，再也不用担心配置环境出现各种问题。

下载压缩包：下载地址：阿里开源数字人EchoMimic，支持长视频！_学术FUN
解压文件：解压后，最好不要有中文路径，双击“run.exe”文件运行。

图片
浏览器访问：打开浏览器访问 http://127.0.0.1:7860/，即可在浏览器中使用。
上传图片和音频：上传图片的素材要求人形正脸，五官清晰可见。上传音频后，可以调整参数（软件默认生成1200帧即50秒以内视频，高于50秒需要自行调节视频长度，视频长度=视频秒数×帧速率，最大长度5000帧）或保持默认，点击提交，生成结果会位于右侧。

图片
播放和下载：可以播放查看生成的视频，点击右上角下载按钮可以保存至指定文件夹。

图片

EchoMimic的开源不仅为视频创作者提供了强大的工具，也为AI技术的普及和应用带来了新的可能。无论是从技术角度还是用户体验角度，EchoMimic都展现了其卓越的性能和广阔的应用前景。

如果你对这项技术感兴趣，不妨亲自试试，相信你会被其强大的功能所惊艳。

关注