阿里终于开源数字人技术！！

最新推荐文章于 2025-04-20 20:24:20 发布

musicml

最新推荐文章于 2025-04-20 20:24:20 发布

阅读量2k

点赞数 5

本文链接：https://blog.csdn.net/musicml/article/details/140784807

版权

▼最近直播超级多，预约保你有收获

—1—

数字人技术的难点

数字人技术目前在很多场景都已经落地，包括：虚拟数字人直播，大幅提升了直播效率并降低了公司成本。

但是在数字人行业解决方案的研发过程中，关键的技术挑战主要涵盖以下几点：确保人物模型动作的流畅性与自然度，并结合灵活多变的直播语言表达技巧，以达成栩栩如生的数字人主播效果。

尽管市面上已有众多商业平台推出了一系列解决方案，但此次，蚂蚁集团的支付宝开源了其数字人技术：EchoMimic。该技术使得人物表情生动多样，动作流畅自然，适用于虚拟主播和人物视频的生成。现在，无需任何费用，用户即可构建一套属于自己的数字人系统！

—2—

阿里开源 EchoMimic 数字人技术

EchoMimic 能够通过音频和面部标志单独生成人像视频，也可以通过音频和选定的面部标志的组合来生成，技术架构如下所示。

在音频输入推动下的人像图像动画领域，已经取得了在生成逼真动态人像方面的显著进步。传统方法局限于使用音频或面部关键点将图像转化为视频，虽然它们可以产生满意的结果，但某些问题仍然存在。比如：仅由音频驱动的方法有时可能因为相对较弱的音频信号而不稳定，而仅由面部关键点驱动的方法虽然在驱动上更为稳定，但由于关键点信息的过度控制，可能导致结果不自然。为了解决上述挑战，阿里采用了 EchoMimic 的新方法。EchoMimic 同时使用音频和面部标志进行训练。通过实施一种新颖的训练策略，EchoMimic 不仅能通过音频和面部标志单独生成人像视频，还可以通过音频和选定的面部标志的组合来生成。EchoMimic 已经在各种公共数据集和我们收集的数据集上与其它算法进行了全面比较，无论是在定量还是定性评估中都展示了卓越的性能。额外的可视化效果和源代码可以在 EchoMimic 项目页面上找到。

Github 地址：https://github.com/BadToBest/EchoMimic

官方地址：https://badtobest.github.io/echomimic.html

—3—

阿里数字人功能介绍

EchoMimic 模型的核心是一款以音频为驱动的肖像动画制作工具，它利用可编辑的特征点来生成栩栩如生且自然的动画效果。如果用户对人物动作的表现不满意，完全可以借助编辑图像的特征点来精细化调整动画的细节。

全部操作都提供了 Web 可视化操作平台，不用写任何代码，只需要简单调整按钮参数即可完成。

EchoMimic 功能特点如下所示：