文献阅读(79)ICASSP2023-Heterogeneous Graph Learning for Acoustic Event Classification

本文是对《Heterogeneous Graph Learning for Acoustic Event Classification》一文的总结,如有侵权即刻删除。

朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~

Chinese-Reading-Notes-of-Graph-Learning

更多相关文章,请移步:文献阅读总结:网络表示学习/图学习

Title

《Heterogeneous Graph Learning for Acoustic Event Classification》

——ICASSP 2023

Author: Amir Shirian

总结

文章提出了HGCN方法,利用图神经网络来建模视听数据内部的关系。其先导工作为发表于InterSpeech 2022上的Visually-aware Acoustic Event Detection using Heterogeneous Graphs。具体来说,针对一个视频样本,可以分为同时出现的视觉数据和听觉数据,通过将这些数据进行切分成若干个片段,这些片段就可以被视为节点,而片段之间的联系就可以构造成边。这意味着每个视频样本都是一个小的子图,通过图神经网络来学习其内在的图结构与每个节点的表征,并最终使用readout读取出全图表征,就能将得到的全图表征视为该视听样本的表征并送入到下游任务中。其模型结构如下所示:
在这里插入图片描述

1 子图构造

视觉数据和听觉数据都会被切分成若干个片段(两类数据的片段总数可能是不一致的),当片段被视为节点之后,片段间的关系就被定义为边。节点可分为两类,即视觉节点和听觉节点。边可以分为三类,视觉节点内,听觉节点内,视觉节点和听觉节点之间。而边的构造方式,是可以灵活调整的,例如边的数量和间隔,在模型中都作为超参数出现:
在这里插入图片描述
在这里插入图片描述

2 模型

文章使用的图神经网络是经典模型,没有做更多的修改。GNN最关键的思想在于通过边完成消息传播,来聚合节点传来的特征。对第L层,有:

在这里插入图片描述

在实际结构中,如上文结构图所示,首先单独的聚合视觉数据特征和听觉数据特征,这一环节分别使用两个GCN来完成。而后将视觉特征传递给听觉节点,这一环节使用GAT完成。要注意,因为文章最终的下游任务是声学事件分类,相当于视觉数据是对听觉数据的增强,因此最终还是要落到听觉数据上。因此有:

在这里插入图片描述

最终,要将这些学到的节点表征进行聚合,读取成为全图表征。因为每个视听样本被构造成为了一个子图,因此每个最终的全图表征才能够代表一个单独的视听样本,则有:

在这里插入图片描述

以上即为本文的模型部分,其构造是较为简单灵活的,而思路则可以推广到更多的多模态数据上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值