用于2D动画的实时嘴型同步技术

最新推荐文章于 2025-01-07 07:33:55 发布

shadowcz007

最新推荐文章于 2025-01-07 07:33:55 发布

阅读量3.3k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shadowcz007/article/details/103998423

版权

介绍了一种基于深度学习的实时2D角色唇形同步技术，使用LSTM模型实现低延迟视素序列生成，优于市场上的多种方法，如Adobe Character Animator。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hi，大家好~我是shadow，一枚设计师/全栈工程师/算法研究员，目前主要研究方向是人工智能写作和人工智能设计，当然偶尔也会跨界到人工智能艺术及其他各种AI产品。这是我发在《人工智能Mix》的一篇论文阅读笔记。

文末了解《人工智能Mix》

论文：

Real-Time Lip Sync for Live 2D Animation

形象生动的2D角色动画在直播和视频里越来越多，直播动画的一个关键要求是快速准确的嘴型同步。

作者提出了一个基于深度学习的交互系统，该系统使用长-短期记忆（LSTM）模型自动生成2D角色的实时唇同步。系统以流式音频为输入，产生的视素（viseme）序列的延迟小于200ms（包括处理时间）。

- viseme视素是什么？

视觉音素/视素（visual phoneme/viseme）是嘴唇和面部的姿势或表达，把各个嘴部或者面部的姿态用一帧图像表示，并对应于一个特定的语音（音素），是不是有点像动作脚本库，如下图所示。

例如在讨论读唇术时，我们常常使用这个术语，其概念类似于音素，并且是具备可理解度的基本视觉单元。在计算机动画中，我们可以使用视觉音素的组合来制作虚拟角色的动作，令它们看起来像是在说话。

在本文，即把声音序列转化为音素序列（动画），作者还统计了音素组合的使用情况，如下方所示：

另外，作者提出了一个数据增强的方法，允许我们使用非常少量的动画训练数据（13-20分钟）以获得良好的效果。大量的实验表明，作者的结果优于几种市面上的方法。

- 相关设计工具

另外，作者跟abobe的Character Animator做了个对比，表示比adobe的效果好……我们稍微看下adobe的这款工具简介：

在几秒钟内创建一个人物，使用摄像头将各种艺术作品转变为动画人物，此过程由 Adobe Sensei AI (人工智能）提供支持。

从口型同步到跟踪眼部特征，用户的表演可为人物赋予活力。Character Animator 可使用摄像头和麦克风匹配用户的表情（从口型同步到跟踪眼部特征），从而实时生成人物的动画。

感兴趣，可以自行下载体验~

以上为全文，原文发表于《人工智能Mix+》知识星球。

《人工智能Mix+》

每天更新至少一篇笔记，

目前正在优惠期间，

仅需10元，

欢迎加入。

近期热门推荐：

寻找AR中的Big Difference

谷歌的storyboard（故事板）生成技术

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。