RWKV再下一城!腾讯优图提出TIM:双人运动生成新方法

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

ac78239ecc8d4cf4362a06260d0cc461.png


Human-Human Motion Generation新SOTA!腾讯优图实验室提出TIM  

针对Human-human motion generation问题,腾讯优图实验室提出了一种利用RWKV对双人运动序列进行时序和因果建模的架构TIM,分别利用运动序列时间上的因果关系和两人交互过程中的主动被动关系,TIM设计了两种有效的序列建模方式。此外还设计了局部运动模式增强,使得生成的运动更加平滑自然。TIM在InterHuman和InterX数据集上均达到了SOTA的效果。值得注意的是,TIM仅仅用InterGen方法32%的训练参数即达到了SOTA的表现。

题目:Temporal and Interactive Modeling for Efficient Human-Human Motion Generation

论文:https://arxiv.org/abs/2408.17135    

代码:https://aigc-explorer.github.io/TIM-page

背景

之前的双人运动生成方法未能考虑到人与人在交互过程中运动的内在属性。首先,运动序列在时间上具有因果关系,即当前时刻的运动是由之前所有时刻的运动所共同决定的。其次,交互运动的双方可以分为主动方和被动方,通常被动方的运动受主动方的影响,并且主动方和被动方的角色在两个人之间是不断变化的。总体而言,运动和自然语言共享一些相似的属性,这突显了在双人交互中探索利用 RNN 的高效方法的必要性。本文提出了Temporal and Interactive Modeling (TIM),这是一种将 RWKV 应用于双人运动生成的开创性方法。首先,鉴于运动序列的时间因果属性,本文提出了因果交互注入(Causal Interactive Injection),将两个单人运动序列建模为一个因果交互序列,然后将其注入 RWKV 层。其次,本文引入了角色演变混合(Role-Evolving Mixing),根据文本语义和运动上下文自适应调整互动过程中“主动”和“被动”的角色。最后,本文提出了局部运动模式增强(Localized Pattern Amplification),通过分别捕捉每个人的短期运动模式,从而生成更加平滑和更加合乎逻辑的运动。   

方法

fcc652039ba5314e126409819a05e711.png

TIM的整体架构如上图所示,主要包含三个部分:(1) Causal Interactive Injection; (2) Role-Evolving Scanning; (3) Localized Pattern Amplification Module。

Causal Interactive Injection  

运动的自我感知以及与他人运动的交互感知是双人运动生成的关键要素。之前的方法通常需要两层网络以及四个步骤来完成整个人际互动过程,如Figure 3.(a) 所示。具体来说,本文将两个人的单人运动序列建模为,那么双人运动的交互可以表示为:   

dc5d53f39d9000c864adce43773f0a13.png

其中,Self_Layer(例如,transformer 的自注意力机制)负责提取单个人运动的内在信息,而 Cross_Layer(例如,transformer 的交叉注意力机制)旨在交换两个人的运动状态信息。

然而,上述非因果的方式通过多个步骤间接实现双人之间的交互,而不是直接进行。考虑到运动和自然语言的相似属性,本文提出了因果交互注入(Causal Interactive Injection),利用 RNNs 仅需一个网络层和一步操作即可实现双人信息交互。

由于两个人在当前时间步的运动是由他们之前所有时间步的运动所共同决定的,因此本文将两个单人运动序列建模为一个因果交互序列,其中k 可以通过下式获得:

889e2249e9bd19f49e51a26c20c5e01d.png

RWKV在处理时间序列方面具有天然优势,并且能够以线性效率处理长序列。为了更好地利用因果交互序列,本文将其注入到RWKV层中:

914b7ee545d520b13b036a5fcf443ea1.png

然后,可以根据k的定义从x′中分离出两个人的运动特征。   

如Figure 3.(b)所示,本文通过因果交互注入(Causal Interactive Injection)仅使用一个网络层和一步交互实现了双人的运动交互。

7e23fa165d95c071ea409f859ec038f4.png

Role-Evolving Mixing  

人类在交互过程中通常存在一定的内在顺序,例如,“握手”通常由一个人先伸出手,这意味着交互动作可以被分为主动运动和被动运动。一些方法将文本描述分为主动和被动语态。然而,随着互动的进行,“主动方”和“被动方”不断在两人之间交换,如Figure 1所示。为了避免冗余的文本预处理并且适应角色的不断变化,本文设计了一种高效且有效的方法:角色演变混合(Role-Evolving Mixing)。

7b8b4ae0e275c0b446776db0b14a4ef7.png

对于在因果互动注入中定义的因果互动序列x,显然由于RNNs的时间特性,a和b分别代表主动序列和被动序列。然而这种关于主动和被动序列的假设并不总是符合实际顺序。为了应对角色的变化,本文将交互运动序列重新建模为对称因果交互序列,k’由下式得到:   

6d4891f405656da244d8b6aa6d93a692.png

给定因果交互序列和对称因果交互序列,本文通过角色演变扫描(Role-Evolving Scanning)得到最终的双人交互序列:

31bdc5507d3686c736fdc976e2d5db96.png

为了更好地根据上下文语义实现角色的动态转换,本文提出了自适应混合调制,该方法在人体互动任务中利用了RWKV。给定包含文本信息和时间戳的条件嵌入e,自适应混合调制的操作如下:

261de8091d77cc163445f8046e04670a.png

其中,TM和CM分别表示Time Mixing和Channel Mixing。

在从自适应混合调制中获得输出后,分别在通道层面将其分为因果交互特征和对称因果交互特征,然后根据两人序列的索引获得两人各自的运动特征,最终合并两人的特征获得最终的全局动作特征:   

c2bd52ea2f9bea8f554c4c400e9fada8.png

通过利用角色演变混合技术,使得两个人既扮演主动角色又扮演被动角色,网络可以根据文本的语义和动作的上下文动态调整两个人的角色。

Localized Pattern Amplification  

因果交互注入(Causal Interactive Injection)和角色演变混合(Role-Evolving Mixing)主要基于双人互动之间的因果关系来建模整体运动,但忽视了对局部运动模式的关注。为了解决这个问题,本文提出了局部运动模式增强(Localized Pattern Amplification),通过捕捉每个人的短期运动模式,使得生成更加平滑和合理的运动。

具体来说,本文利用一维卷积层和残差结构来实现局部运动模式增强。给定条件嵌入和两个单人的运动序列,可以建立下图所示的结构:

35808f1d33c191e96df80ea995a810eb.png

通过这种方式,能够捕捉每个人的短期动作模式,并将其与条件嵌入结合,从而生成更平滑和更合理的动作序列。

目标函数    

本文采用了常见的单人动作损失函数,包括足部接触损失和关节速度损失。此外,还使用了与InterGen相同的正则化损失函数,包括骨长度损失、掩码关节距离图损失和相对方向损失。最终,总体损失定义为:

57ec7e8406fc8456672b6d0d9d6e0222.png

实验结果

InterHuman数据集  

a8288a0c2014a6e55a50b2726922ada3.png

在InterHuman数据集上,TIM在R precision,FID, MM Dist等度量指标上达到了最优的表现,其中FID达4.702,超过InterGen方法1.216。

InterX数据集  

632061b89575c79bccec97caea86ad08.png

在InterX数据集上,TIM在R precision,FID, MM Dist等度量指标上也达到了最优的表现,其中在FID指标上超过InterGen方法45%。         

    

模型计算复杂度和可编辑性  

计算复杂度  

324279ffcb26e5d2856da79e1edab48d.png

在计算复杂度方面本文将TIM与当前最先进的方法 InterGen 进行了比较。TIM 的计算参数量和浮点运算次数(FLOPs)均少于 InterGen,并且在综合指标 FID 上超出其 1.216。值得注意的是,TIM 仅使用两层模块就达到了最优的结果,其可训练参数仅为 InterGen 的 32%,且浮点运算次数少于 28G。

可编辑性  

39543e18a28c03aad126dc61d5a48138.png

本文在 InterHuman 的测试集上进行了运动编辑的实验,通过给定序列的前 10% 和后 10% 帧让模型预测额外80%帧的序列来进行评估方法的可编辑性。Table 6显示了TIM在运动插值编辑任务中在所有度量指标上都超越了InterGen。

总结

本文针对Human-human motion generation问题提出了一种利用RWKV对双人运动序列进行时序和因果建模的架构TIM,分别利用运动序列时间上的因果关系和两人交互过程中的主动被动关系,TIM设计了两种有效的序列建模方式。此外还设计了局部运动模式增强,使得生成的运动更加平滑自然。TIM在两个大规模双人运动生成的数据集InterHuman和InterX上均达到了SOTA的效果,证明了本文所提出方法的有效性。因此,TIM为Human-human motion generation提供了一个有效的解决方案。

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值