【阅读笔记】Learning Dual-Pooling Graph Neural Networks for Few-Shot Video Classification

最新推荐文章于 2022-05-16 15:16:18 发布

一只瓜皮呀

最新推荐文章于 2022-05-16 15:16:18 发布

阅读量2.7k

点赞数 1

分类专栏：图神经网络小样本学习文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/qq_29260257/article/details/124061231

版权

小样本学习同时被 2 个专栏收录

43 篇文章 25 订阅

订阅专栏

图神经网络

20 篇文章 3 订阅

订阅专栏

Abstract

本文解决了小样本视频分类的问题，该分类仅从几个示例中学习新概念的分类器。当前大多数方法都忽略了明确考虑视频内和视频间域中的关系，因此无法充分利用小样本学习中的结构信息。在本文中，我们建议通过图神经网络 (GNN) 开发全面的视频内和视频间关系。为了提高准确选择代表性视频内容和细化视频关系的判别能力，构建了一个双池 GNN (DPGNN)，它以分层方式堆叠定制的图池层。具体来说，为了选择视频中最具代表性的帧，我们构建视频内图并利用节点池化模块来提取稳健的视频级特征。我们通过将视频级特征作为节点来构建视频间图。通过设计边缘池化模块，该方法可以自适应地消除视频间图中的负关系。广泛的实验结果表明，我们的方法在两个基准测试中始终优于最先进的方法。

Contributions

我们提出了一个端到端的双池图神经网络，通过利用视频内和视频间的关系来执行小样本视频分类。据我们所知，我们的 DPGNN 是最早将 GNN 用于具有双池策略的基于元学习的视频 FSL 的之一。
通过仔细设计视频内和视频间图中的节点池化和边池化模块，我们提出的方法可以共同享受有代表性的视频内容选择和有区别的视频关系细化的优点。

Method

1、Intra-Video Graph

我们希望形成一个视频内图来明确学习视频的时间信息并保留最具代表性的帧，其中节点与每个视频中的帧相关联，边缘由可训练的相似距离给出.然而，由于视频帧可能包含冗余和/或噪声信息，我们提出了节点池操作来提高模型的判别能力。

对于节点池化层，我们学习选择一些关键节点来构建一个新图，将图变成初始图的子集。给定节点特征矩阵 Xi ∈ Rn×d 和邻接矩阵 Ai ∈ Rn×n，我们对 Xi 执行平均池化操作 favg 来表征节点嵌入的全局信息，然后我们使用可训练的投影矩阵 p ∈ Rd×n 来计算池化分数 s ∈ Rn×1。

通过 top-k 方法选择按数值大小排序的 s 上的 k 最大分数。节点池化层的传播过程定义如下：

在视频内图模块中，k 被设置为与节点池化层对应的 n-1 到 1 范围内的不同数字。随着层数的增加，k的值逐渐减小。最后，我们将最后一个节点池化层的输出确定为视频 i 对应的视频级特征 vi。

2、Inter-Video Graph

在视频内图的节点选择过程之后，每个视频都有一个有利的视频级特征。为了实现视频 FSL 任务，我们的第二个关键见解是我们要考虑分类模型中视频之间的关系。因此，在本节中，我们进一步将任务 T 中的支持集和查询集中的视频构建成一个视频间图。但是，如果考虑到视频之间的所有关系，则可能存在冗余和噪声。因此，需要一种机制来保留判别关系并丢弃不重要的关系。我们提出了一种边池化策略，通过减少视频间图中的冗余信息来保留最具辨别力的关系信息。

我们通过多层感知器 (MLP)学习初始边 ei,j，该多层感知器堆叠在图中两个节点的各个特征之间的绝对差异上。

然后通过沿每一行使用 softmax 函数对邻接进行归一化。经过上述几层学习边缘的操作，视频间图是密集连接的，深度被解释为赋予了更多的表现力。

每条边表示两个连接节点之间的相似性。由于目标是对查询视频进行分类，我们进一步考虑与查询视频相关的边缘。我们的目标是提出一种边池化策略来操作连接到查询节点和其他视频节点的边的选择。我们设计了一个评分模块来对分类任务的候选视频进行排名，其中 q 和 i 表示查询视频和视频 i。具体来说，我们采用可训练的投影向量 𝒑′ ∈ R2f 计算从节点 vi 到 vq 的边缘注意力分数。由于视频间图是无向连接图，因此两个节点之间的关系可以计算如下：

其中 Si,q 是保留相应边缘的边缘注意力分数。我们将边缘注意力分数 Si,q 计算为连接节点特征的简单线性组合。为了保留最重要的边缘，我们设计了一个精炼掩码 m，如下所示：

我们将掩码 mi,q 和边 ei,q 相乘以保留将最相似节点连接到查询节点的边。

3、Model Learning

我们制定了节点 vj 的预测概率：

DPGNN 模型旨在预测与查询视频对应的目标标签 Y，与视频间图中的节点 * 相关联。我们应用 9 来获得分类结果。损失函数 L 定义为交叉熵损失：

一只瓜皮呀

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【阅读笔记】Learning Dual-Pooling Graph Neural Networks for Few-Shot Video Classification

本文解决了小样本视频分类的问题，该分类仅从几个示例中学习新概念的分类器。当前大多数方法都忽略了明确考虑视频内和视频间域中的关系，因此无法充分利用小样本学习中的结构信息。在本文中，我们建议通过图神经网络 (GNN) 开发全面的视频内和视频间关系。为了提高准确选择代表性视频内容和细化视频关系的判别能力，构建了一个双池 GNN (DPGNN)，它以分层方式堆叠定制的图池层。具体来说，为了选择视频中最具代表性的帧，我们构建视频内图并利用节点池化模块来提取稳健的视频级特征。我们通过将视频级特征作为节点来构建视频间图。
复制链接

扫一扫