用于2D动画的实时嘴型同步技术


hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品。这是我发在《人工智能Mix》的一篇论文阅读笔记。

文末了解《人工智能Mix》 

论文:

Real-Time Lip Sync for Live 2D Animation

 

形象生动的2D角色动画在直播和视频里越来越多,直播动画的一个关键要求是快速准确的嘴型同步。

 

作者提出了一个基于深度学习的交互系统,该系统使用长-短期记忆(LSTM)模型自动生成2D角色的实时唇同步。系统以流式音频为输入,产生的视素(viseme)序列的延迟小于200ms(包括处理时间)。

- viseme视素是什么?

视觉音素/视素(visual phoneme/viseme)是嘴唇和面部的姿势或表达,把各个嘴部或者面部的姿态用一帧图像表示,并对应于一个特定的语音(音素),是不是有点像动作脚本库,如下图所示。

例如在讨论读唇术时,我们常常使用这个术语,其概念类似于音素,并且是具备可理解度的基本视觉单元。在计算机动画中,我们可以使用视觉音素的组合来制作虚拟角色的动作,令它们看起来像是在说话。

 

在本文,即把声音序列转化为音素序列(动画),作者还统计了音素组合的使用情况,如下方所示:

 

 

 

另外,作者提出了一个数据增强的方法,允许我们使用非常少量的动画训练数据(13-20分钟)以获得良好的效果。大量的实验表明,作者的结果优于几种市面上的方法。

 

- 相关设计工具

 

另外,作者跟abobe的Character Animator做了个对比,表示比adobe的效果好……我们稍微看下adobe的这款工具简介:

在几秒钟内创建一个人物,使用摄像头将各种艺术作品转变为动画人物,此过程由 Adobe Sensei AI (人工智能) 提供支持。

 

从口型同步到跟踪眼部特征,用户的表演可为人物赋予活力。Character Animator 可使用摄像头和麦克风匹配用户的表情(从口型同步到跟踪眼部特征),从而实时生成人物的动画。


感兴趣,可以自行下载体验~

以上为全文,原文发表于《人工智能Mix+》知识星球。


《人工智能Mix+》

每天更新至少一篇笔记

目前正在优惠期间,

仅需10元

欢迎加入。

近期热门推荐:

寻找AR中的Big Difference

谷歌的storyboard(故事板)生成技术

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值