01 Magic-Me项目介绍
Magic-Me是字节跳动和伯克利大学合作研发的特定身份视频生成的AI模型,该模型可以生成高质量且稳定的视频内容,同时准确保持主体的身份特征。区别于Sora、Lumiere、Gen-2等现有的文本到视频生成模型,Magic-Me可以使用个人的照片,如家人、朋友或宠物,来生成高度个性化的视频内容。通过对这些图片进行深度学习嵌入的训练,Magic-Me能够生成包含用户亲密关系人物特征的定制化视频,从而实现更加个性化和情感化的内容创造。
02创新性身份识别的研究方法
在现实应用中,尤其是在如电影制作等领域,经常需要根据文本描述的指引来生成具有明确身份的内容。在广告产业中,其中产品标识需要在不同的环境或背景下保持一致性。这一需求被称作特定身份生成,它在为某个角色创建执行特定动作的动画时格外重要。但实际操作中存在诸多问题,现有的视频生成框架通常依赖一个预训练的运动模块来确保帧与帧之间的一致性,动模块可能会在生成时间连贯的视频帧方面遇到困难。
该研究团队致力于开发一种能够在不同动作和场景下为主体生成动画的定制化内容,同时保持主体身份的一致性。他们成功实现了在保留特定身份和引入变化之间的平衡。团队开发的身份(ID)模块显著优化了ID令牌信息与主体身份之间的对齐。通过将身份特征压缩成几个紧凑的文本令牌嵌入——即扩展的ID令牌——该模块大幅降低了所需的参数数量,相比于SVDiff,减少了约105倍(从1.7MB减少到16KB)。ID令牌的优化专注于对象的组成部分