文献阅读（79）ICASSP2023-Heterogeneous Graph Learning for Acoustic Event Classification

最新推荐文章于 2023-11-20 00:36:07 发布

学徒刘猛

最新推荐文章于 2023-11-20 00:36:07 发布

阅读量176

点赞数

分类专栏：文献阅读文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/CSDNTianJi/article/details/132825026

版权

文献阅读专栏收录该内容

87 篇文章 32 订阅

订阅专栏

本文是对《Heterogeneous Graph Learning for Acoustic Event Classification》一文的总结，如有侵权即刻删除。

朋友们，我们在github创建了一个图学习笔记库，总结了相关文章的论文、代码和我个人的中文笔记，能够帮助大家更加便捷地找到对应论文，欢迎star~

Chinese-Reading-Notes-of-Graph-Learning

更多相关文章，请移步：文献阅读总结：网络表示学习/图学习

Title

《Heterogeneous Graph Learning for Acoustic Event Classification》

——ICASSP 2023

Author: Amir Shirian

总结

文章提出了HGCN方法，利用图神经网络来建模视听数据内部的关系。其先导工作为发表于InterSpeech 2022上的Visually-aware Acoustic Event Detection using Heterogeneous Graphs。具体来说，针对一个视频样本，可以分为同时出现的视觉数据和听觉数据，通过将这些数据进行切分成若干个片段，这些片段就可以被视为节点，而片段之间的联系就可以构造成边。这意味着每个视频样本都是一个小的子图，通过图神经网络来学习其内在的图结构与每个节点的表征，并最终使用readout读取出全图表征，就能将得到的全图表征视为该视听样本的表征并送入到下游任务中。其模型结构如下所示：
在这里插入图片描述

1 子图构造

视觉数据和听觉数据都会被切分成若干个片段（两类数据的片段总数可能是不一致的），当片段被视为节点之后，片段间的关系就被定义为边。节点可分为两类，即视觉节点和听觉节点。边可以分为三类，视觉节点内，听觉节点内，视觉节点和听觉节点之间。而边的构造方式，是可以灵活调整的，例如边的数量和间隔，在模型中都作为超参数出现：
在这里插入图片描述

2 模型

文章使用的图神经网络是经典模型，没有做更多的修改。GNN最关键的思想在于通过边完成消息传播，来聚合节点传来的特征。对第L层，有：

在这里插入图片描述

在实际结构中，如上文结构图所示，首先单独的聚合视觉数据特征和听觉数据特征，这一环节分别使用两个GCN来完成。而后将视觉特征传递给听觉节点，这一环节使用GAT完成。要注意，因为文章最终的下游任务是声学事件分类，相当于视觉数据是对听觉数据的增强，因此最终还是要落到听觉数据上。因此有：

在这里插入图片描述

最终，要将这些学到的节点表征进行聚合，读取成为全图表征。因为每个视听样本被构造成为了一个子图，因此每个最终的全图表征才能够代表一个单独的视听样本，则有：

在这里插入图片描述

以上即为本文的模型部分，其构造是较为简单灵活的，而思路则可以推广到更多的多模态数据上。

学徒刘猛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文献阅读（79）ICASSP2023-Heterogeneous Graph Learning for Acoustic Event Classification

本文是对《Heterogeneous Graph Learning for Acoustic Event Classification》一文的总结，如有侵权即刻删除。
复制链接

扫一扫