计算机视觉与音乐,Transformer又又来了,生成配有音乐的丝滑3D舞蹈,开放最大规模数据集AIST++...

5aa1d88c8630b9b261ac0f7d000af6ca.gif

出自论文:

Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

e0c446daa62b729448ad8dd538505dc5.png

来自谷歌等单位的学者提出一个基于 transformer 的学习框架,用于以音乐为条件的3D舞蹈生成。设计了一个全新的网络框架,并验证得出获得高质量结果的关键。其中组件之一是深度跨模态 transformer,可以很好地学习音乐和舞蹈运动之间的相关性,并且具有 future-N 机制的全注意力在产生长距离 non-freezing 运动中至关重要。

def5863d27dc9294734c800cbe0addf0.png

合成 demo:

AIST++ 数据集

AIST++ 舞蹈运动数据集是从 AIST Dance Video DB 构建的。对于多视角视频,设计一个完美的 pipeline 来估计摄像机参数、3D人体关键点和3D人体舞蹈运动序列。

提供了 10.1M 张图像的 3D 人体关键点标注和相机参数,涵盖 9 个视角的 30 个不同主体。以此成为现有的最大、最丰富的三维人体关键点标注数据集。

还包含了 1408 个三维人体舞蹈运动序列,以 joint rotations 和 root trajectories 一起的形式表示。舞蹈动作平均分布在 10 个舞蹈流派和数百个编排中。动作持续时间从7.4秒到48.0秒不等。所有的舞蹈动作都有相应的音乐。

通过以上的标注,AIST++ 支持以下任务。

多视角人体关键点估计

人体运动预测/生成

人体运动和音乐之间的跨模态分析

数据集以不同的方式被分割成训练/验证/测试集,用于不同的目的。

9631acd789fb81d99ddbef737191b21e.png

对于人类姿势估计和人类运动预测等任务,作者建议使用表 1 中描述的数据分割。

28a9e6b8b6317a7700fa8ae9f2c66c7f.png

对于处理运动和音乐的任务,如音乐条件运动生成,建议使用表 2 中描述的数据分割。

作者 | Ruilong Li, Shan Yang, David A. Ross, Angjoo Kanazawa

单位 | 南加利福尼亚大学;谷歌;伯克利

论文 | https://arxiv.org/abs/2101.08779

数据集 | https://google.github.io/aistplusplus_dataset/

主页 | https://google.github.io/aichoreographer/

END

c03f67a5e6eb880e1db59172392c9680.png

备注:TFM

Transformer交流群

讨论Transformer在CV领域的应用。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到

b99d90ed5a8a244d8d3352fbe96bc7c9.gif

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GCN+Transformer和GAT+Transformer是两种常见的图神经网络模型,它们在图数据上进行特征提取和表示学习。下面是它们的对比以及各自的优劣势: 1. GCN+Transformer: - GCN(Graph Convolutional Network)是一种基于邻居节点信息传递的图卷积模型,通过聚合邻居节点的特征来更新节点的表示。 - Transformer是一种基于自注意力机制的序列建模模型,广泛应用于自然语言处理任务中。 - GCN+Transformer将GCN和Transformer结合,使用GCN进行图结构建模,然后使用Transformer进行特征融合和表示学习。 2. GAT+Transformer: - GAT(Graph Attention Network)是一种基于注意力机制的图神经网络模型,通过学习节点之间的注意力权重来进行特征聚合。 - Transformer同样是一种基于自注意力机制的序列建模模型。 - GAT+Transformer将GAT和Transformer结合,使用GAT进行图结构建模,然后使用Transformer进行特征融合和表示学习。 对比: - GCN+Transformer和GAT+Transformer都是将图神经网络和Transformer结合起来,用于图数据的特征提取和表示学习。 - GCN+Transformer使用GCN进行邻居节点信息传递,适用于较小规模的图数据,对于密集连接的图效果较好。 - GAT+Transformer使用注意力机制进行节点特征聚合,适用于大规模图数据,能够处理稀疏连接的图。 - GCN+Transformer相对简单且易于实现,而GAT+Transformer在计算效率上可能会有一定的挑战。 - 在具体任务中,选择哪种模型取决于图数据的特点、规模以及任务要求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值