论文阅读笔记(audio-visual相关)—Music Gesture for Visual Sound Separation

本文是CVPR 2020 的一篇文章。
论文的样例网址:http://music-gesture.csail.mit.edu
论文地址:https://arxiv.org/abs/2004.09476

网络框架如下:
在这里插入图片描述
网络的思想是基于现有的声音分离模型中base方法-使用U-net进行预测与视觉相关的音频部分的mask,然后将其作用在原始频谱上,然后分离对应音频频谱。作者是在base基础上,深挖了视觉部分的可用信息——人体姿态信息。
因为作者将音频分离任务具体到乐器演奏的分离上,而乐器演奏是离不开演奏者的,并且演奏者的姿态和动作(主要体现在肢体和手部)会直接影响所演奏的音乐,所以作者在视觉部分深挖了关于人体姿态的信息,以此来更好的指导音频分离。
下面具体说一下网络的构成:
网络整体分为两个部分,视觉分析网络和音视频分离网络。
视觉分析网络是结合视频图像帧的特征,和人体姿态的信息。将两部分组合在一起构成了视觉分析网络的输出。
这里主要说一下有关人体姿态的信息。人体姿态的信息是用人体的主要关节点来表示的。考虑到是乐器演奏,涉及的人体姿态主要由肢体和手部关节组成。所以关节点的结构化表示包含两个部分:人身体的部分关键点,和手部的手指关键点。
作者是用Alphapose工具箱来估计人体关节的二维坐标。手部姿态是使用一个预训练的手部检测模型,然后使用OpenPose中的hand API来获取手部关键点的坐标。最终采用18个人体关键点,21个手部关键点。每个关键点是由其二维坐标和置信值构成。然后使用一个上下文感知的图卷积网络来融合上下文语义特征和关节点的动态特征。人体的关节点作为图的节点,身体关节点之间的自然关联形成了图的边。
节点特征是以关节点的2D坐标和其随着时间t而检测的置信度。对于每个时间步,都是用GCN来对姿态进行编码。然后在时域上卷积来融合时域信息。
编码的姿态信息如下:
在这里插入图片描述
其中
在这里插入图片描述
在这里插入图片描述
最终在视觉分析网络输出的时候,是在每个更新后的节点特征上,连接上经过resnet-50提取到的全局语义特征。连接后的特征,作为整体的视觉分析网络的输出。
视觉分析网络的输出是基于一个融合模块来将输出特征与音频频谱经过U-net的encoder部分之后的特征融合。
融合模块框架如下:
在这里插入图片描述
主体思想是基于self-attention的思想,并在此基础上做了一些变形。
融合后特征处理为与Unet的encoder输出维度相同的特征,然后经过decoder输出一个mask。
训练的loss是在预测的mask和ground-truth的二进制mask之间做逐像素的交叉熵计算。

总结:
本文通过引入人体的关键点来结构化视觉表示,相比之前的工作进一步深挖了视觉信息中的可用信息。而且通过文章中给出的可视化结果来看,这种结构化表示能够使得网络有效的关注于与演奏相关的肢体信息,包括手部和四肢(主要是上肢)。
通过作者在官网上给出的样例视频来看,效果相比于之前的一些方法,确实提升了很多,并且直观来说,效果还是非常明显的。
虽然这种结构化表征目前在人演奏乐器这一类的声源分离任务中,确实取得了很好的效果,但是局限性也是存在的,比如某些自然场景的声源分离,如何进行结构化表示呢?如何将这种结构化表示的思想应用在其他场景中,应该也是值得思考的,毕竟声源分离这个任务范围还是很广的。
希望作者可以早日开源code,还是很值得一试的。

以上仅是自己一些粗浅的理解,有不对之处还请大家不吝指出。
谢谢。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值