阿里新出EMO如何让照片开口唱歌

本文链接：https://blog.csdn.net/qq_43270074/article/details/136359242

阿里云的AI框架EMO能通过单一图像和音频生成逼真的肖像视频，支持多种语言和风格，实现照片人物的动态表达，提升多媒体内容的互动性和真实感。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：苍何，前大厂高级 Java 工程师，阿里云专家博主，CSDN 2023 年实力新星，土木转码，现任部门技术 leader，专注于互联网技术分享，职场经验分享。
🔥热门文章推荐：

（1）对程序员来说，技术能力和业务逻辑哪个更重要？
（2）搭建GitHub免费个人网站（详细教程）
（3）itchat实现微信聊天机器人
（4）嗖嗖移动业务大厅（源码下载+注释全值得收藏）

大家好，我是苍何。之前几篇文章介绍过阿里在 AI 方面的一些惊人工具，这不，阿里又推出了 EMO ，它是 AI 肖像视频生成框架，能够通过图像和音频生成富有表现力的人像视频。

它可以直接让头像唱歌，还是很有趣的。

这个工具特别之处在于它能够利用单一的参考图像和音频（如说话或唱歌）来生成丰富的面部表情和头部姿势变化的肖像视频。EMO 的特点是可以根据音频的长度生成任意时长的视频，并且保持角色身份的一致性。此外，EMO 是一个纯视觉解决方案，无需XML（可拓展标记语言）和系统元数据，操作范围不受限制，支持多应用操作，并配备多种视觉感知工具用于操作定位。

EMO 能够通过输入单一的参考图像和声音音频，如说话和唱歌，生成具有表现力的视频，其中的嘴型还可以与声音匹配。这表明 EMO 能够处理任意语音和图像输入，支持任意语速和图像，从而实现高度个性化的视频内容生成。

EMO 甚至擅长制作各种风格的歌唱视频！想象一下，只用你最喜欢的艺术家的一张图片来制作音乐视频，是不是很炸裂！

感兴趣的小伙伴可以去官网看看视频效果哈。

EMO研究论文：https://arxiv.org/pdf/2402.17485.pdf

EMO开源地址：https://humanaigc.github.io/emote-portrait-alive/

EMO 原理

框架主要由两个阶段组成。在称为帧编码的初始阶段，部署了 ReferenceNet 以从参考图像和运动帧中提取特征。随后，在扩散过程阶段，预训练的音频编码器处理音频嵌入。面部区域蒙版与多帧噪点集成在一起，以控制面部图像的生成。随后，我们采用骨干网络来促进降噪操作。在骨干网络中，应用了两种形式的注意力机制：参考注意力和音频注意力。这些机制分别对于保持角色的身份和调节角色的动作至关重要。此外，时间模块用于操纵时间维度，并调整运动速度。