本文是对《Heterogeneous Graph Learning for Acoustic Event Classification》一文的总结,如有侵权即刻删除。
朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~
Chinese-Reading-Notes-of-Graph-Learning
更多相关文章,请移步:文献阅读总结:网络表示学习/图学习
Title
《Heterogeneous Graph Learning for Acoustic Event Classification》
——ICASSP 2023
Author: Amir Shirian
总结
文章提出了HGCN方法,利用图神经网络来建模视听数据内部的关系。其先导工作为发表于InterSpeech 2022上的Visually-aware Acoustic Event Detection using Heterogeneous Graphs。具体来说,针对一个视频样本,可以分为同时出现的视觉数据和听觉数据,通过将这些数据进行切分成若干个片段,这些片段就可以被视为节点,而片段之间的联系就可以构造成边。这意味着每个视频样本都是一个小的子图,通过图神经网络来学习其内在的图结构与每个节点的表征,并最终使用readout读取出全图表征,就能将得到的全图表征视为该视听样本的表征并送入到下游任务中。其模型结构如下所示:
1 子图构造
视觉数据和听觉数据都会被切分成若干个片段(两类数据的片段总数可能是不一致的),当片段被视为节点之后,片段间的关系就被定义为边。节点可分为两类,即视觉节点和听觉节点。边可以分为三类,视觉节点内,听觉节点内,视觉节点和听觉节点之间。而边的构造方式,是可以灵活调整的,例如边的数量和间隔,在模型中都作为超参数出现:
2 模型
文章使用的图神经网络是经典模型,没有做更多的修改。GNN最关键的思想在于通过边完成消息传播,来聚合节点传来的特征。对第L层,有:
在实际结构中,如上文结构图所示,首先单独的聚合视觉数据特征和听觉数据特征,这一环节分别使用两个GCN来完成。而后将视觉特征传递给听觉节点,这一环节使用GAT完成。要注意,因为文章最终的下游任务是声学事件分类,相当于视觉数据是对听觉数据的增强,因此最终还是要落到听觉数据上。因此有:
最终,要将这些学到的节点表征进行聚合,读取成为全图表征。因为每个视听样本被构造成为了一个子图,因此每个最终的全图表征才能够代表一个单独的视听样本,则有:
以上即为本文的模型部分,其构造是较为简单灵活的,而思路则可以推广到更多的多模态数据上。