论文解读《Rethinking Zero-shot Action Recognition:Learning from Latent Atomic Actions---ECCV---2022》

aixiaohly

已于 2023-11-29 21:45:52 修改

阅读量100

点赞数 1

文章标签：深度学习计算机视觉

于 2023-11-29 11:07:17 首次发布

本文链接：https://blog.csdn.net/aixiaohly/article/details/134662886

版权

Rethinking Zero-shot Action Recognition: Learning from Latent Atomic Actions—ECCV—2022

论文下载链接：https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136640102.pdf

一、核心思想

日常生活中的大多数动作都是复杂的，可以看作是原子动作的组合。具有不同名称的复杂操作可能共享相同的原子操作。

我们可以将一个复杂动作看成一个拼图，而原子动作可看作拼图的碎片，每一个拼图都由几个或多个碎片组成。
对于复杂动作分解成原子动作组合的思路是利用大语言模型来实现的，简单来说对于一个复杂的动作，我们通过一段包含多个动词短语的句子进行描述，然后对句子进行解析将这些动词短语提取出来，这些动词短语就是我们所说的原子动作，将这些动词短语输入语言模型中，就可以得到原自动作对应的特征。
举个例子：对跳马这个动作进行描述，体操运动员沿着跑道跑下，跑道通常是有衬垫或地毯的。他们弯下腰，倒立向后弹跳，然后回到跳马上，跳跃可能像跳过器械一样简单，也可能像在空中做几个扭曲和转身一样复杂，然后体操运动员降落在垫子上，将手臂伸过头顶向观众致意。而这其中一个个的动词短语就是我们要的原子动作，g1-gn就是这些原子动作所对应的特征。

二、方法

本文中提出了Jigsaw网络，通过将复杂动作分解为原子动作的组合，并桥接视觉特征和语义表示之间的组对组关系来识别复杂动作。为了增强学习后的组到组桥接的鲁棒性，提出了组激励（GE）模块来对样本内知识进行建模，并提出了一致性损失来强制模型从样本间知识中学习。
在这里插入图片描述
Nvid：应用于视觉特征的时空提取模块。
Nobj：应用于目标对象的识别模块。
Ntext：应用于文本的语义提取模块。
绿色代表语言特征，蓝色代表视觉特征，红色代表融合特征。

整体的框架图如上图所示，下面介绍该方法的具体实现过程，以及核心模块的作用。

1、基本定义

（1）文本信息

对于每一个动作的标签yi，我们抓取一段简短的描述，通过依赖关系解析拆分成一组动作短语，每个短语表示的是一个原子动作，利用语义提取模块Ntext提取原子动作的特征。对于一些拼写错误和不正确的描述，手动删除和修改。对应g1-gn。

（2）视觉信息

对于每一个动作，我们利用时空提取模块Nvid提取每一个视频vi的视觉特征，但是不同于提取整个视频序列的特征，我们针对是这个动作的视频序列中拆分的原子动作表达，相当于将一个视频序列划分成了几个片段，每一个片段代表的是不同的原子动作。实际提取的是视频片段的特征（因为不是一整个视频序列，因此缺少时间上的连续性，时间感受野有限，因此才引出了GE模块，来对每一个片段特征进行聚合）对应f1-fm。
除了时空特征外，还将该视频中的对象类型作为一种视觉属性，每一个视频序列片段的对象进行识别，得到一个对应的语义表达，将这个语义表达输入Ntext中，得到对应的语义特征。这个信息主要是为了补充视觉信息的不足，因为你从时空信息上提取的是动作特征，但是比如说撑杆跳这个动作，不仅需要动作，你也需要人，需要物，合起来表达才能代表一个完整的动作。对应的是o。

2、组激励模块（GE）

为了将视频表达的动作拆分成一组原子动作的表达，因此我们获取到的特征是表示原子动作的片段特征而不是整个视频序列的特征，因此缺乏时间上的连续性，时间感受野有限。同时，每个片段可能不涵盖完整的源自动作，因此为了更好地理解每一个原子动作作用，我们使用GE模块来自适应地聚合样本内的特征。
在这里插入图片描述
这里的GE模块实际上是一个多头自注意力模块，每个注意力头可以学习关注输入视频片段中不同片段的信息，更好去捕捉片段和片段之间的关系和模型，提高模型对于这种复杂关系的建模能力。从而更好地学习到每个片段在整个复杂动作表达中的作用。因此通过将时空特征和视觉属性进行拼接通过多头注意力模块后，得到了^f1- ^fm和 ^o。

3、组对齐模块（GA）

在这里插入图片描述
这里是方法的核心点，我们在视频片段组和原子动作组之间建立组对组的桥梁。
首先视频片段组特征和原子动作组之间求余弦相似度，接着计算对象类型视频属性喝原子动作组之间的余弦相似度，取＞0的值，两者相加得到每一个视频片段识别为任意一个原子动作的概率。这里之所以要计算对象类型视频属性和原子动作组之间的余弦相似度，是因为，在前面已经通过GE模块对视频属性进行了样本内特征的聚合，增强了上下文的信息交互，因此也是包含和动作有关的信息，因此加上这一块的余弦相似度。通过最后得到的p去和动作缓存中对应的原子动作组的特征进行求交叉熵来约束训练网络。

4、一致性损失

在这里插入图片描述
为了增强组间桥接的鲁棒性，提出了一致性损失，利用样本间知识对模型进行无监督优化。这里用视频缓存来进行约束，视频缓存初始化是用的原子动作的语义特征，在训练几个迭代后使用实际提取的特征来替代。实际上我们是没有每个视频片段的基本标签的，但是这些片段应该只包含原子动作，这些原子动作是对齐原子组的组成部分。并且，相同的原子动作，是源动作和目标动作的共同潜在特征，所以我们要让不同视频片段中提取的但是与同一个源自动作对齐的特征应该始终相似。而某一个原子动作对齐的片段特征应该与其它原子动作对齐的分段特征不相同。也就是在这里让相同原子动作对应的片段特征更接近，让不同原子动作对应的片段特征距离更远。好处有两点，第一点是想让相同对应原子动作的片段特征更为相似，这样能够缓解网络对于特征差值较大的敏感性，避免模型过度拟合，增强网络鲁棒性。第二点还扩大了不同原子动作对应片段的特征，使得由原子动作组成的复杂动作特征在空间中的分布更具有可区分度。

我自己汇报的稿子–结合图讲

今天想和大家分享一篇来自2022年ECCV的论文，叫做重新审视零样本动作识别：从潜在原子动作中进行学习。
在这篇论文中针对零样本下的动作识别问题，提出了这样的一种思想：
日常生活中的大多数动作都是复杂的，可以看作是原子动作的组合。而具有不同名称的复杂操作可能共享相同的原子动作。

我们可以将一个复杂动作看成一个拼图，而原子动作可看作拼图的碎片，每一个拼图都由几个或多个碎片组成。
对于复杂动作分解成原子动作组合的思路是利用大语言模型来实现的，简单来说对于一个复杂的动作，我们通过一段包含多个动词短语的句子进行描述，然后对句子进行解析将这些动词短语提取出来，这些动词短语就是我们所说的原子动作，将这些动词短语输入语言模型中，就可以得到原自动作对应的特征。
举个例子：对跳马这个动作进行描述，体操运动员沿着跑道跑下，跑道通常是有衬垫或地毯的。他们弯下腰，倒立向后弹跳，然后回到跳马上，跳跃可能像跳过器械一样简单，也可能像在空中做几个扭曲和转身一样复杂，然后体操运动员降落在垫子上，将手臂伸过头顶向观众致意。而这其中一个个的动词短语就是我们要的原子动作，g1-gn就是这些原子动作所对应的特征。

我们下面具体讲一下实现的方式，对于视频序列我们进行划分片段处理，每一个片段对应着一个我们希望学习到的原子动作。我们通过时空卷积得到每一个片段对应的视觉特征f1-fm。除此之外，对于每一个视频片段我们用一个目标识别网络进行识别，将识别到的目标作为一种视觉属性，这个视觉属性其实就是除了动作表达之外，一些与该动作相关的信息，比如跳马运动中跳马的这个横杆，比如用于加速的跑道，我们将识别出来的这些目标通过语言模型去得到对应的特征。现在我们已经得到了我们主要的三部分特征，视觉特征、属性特征和原子动作特征。
下面就是我们具体如何利用这些特征。首先对于视觉特征和属性特征，我们输入道GE模块，GE模块实际是一个多头注意力模块，为什么要利用这样一个模块，是因为我们得到视觉特征实际上是片段特征，而不是一整个视频序列得到的视觉特征，因此时间上的感受野有限，就导致片段特征之间的关系是割裂的，因此我们在这里利用一个多头注意力模块来对特征进行聚合，更好地去捕捉片段特征之间的关系，提高模型对于这种复杂关系的建模能力，从而更好地学习到每个片段在整个复杂动作表达中的作用。而之所以利用到这个视觉属性是因为同样也包含相关的信息，能够更好地帮助建立关系。
在得到我们处理过后的特征后，我们就要利用原子动作的特征了，将三方特征输入到GA模块，组对齐模块，也就是我们想要实现的，视频片段组的特征到原子动作组特征的对齐，我们对两组特征求余弦相似度，选取相似度最高的作为视频片段是某一个原子动作的预测概率。对于处理过的属性特征，我们也做求相似度的处理，相似度高的说明，从语义表达上和原子动作相关性更高，相似度说明不想关，因此在这里我们对于相似度小于0的置零，然后与视频片段特征的预测概率相加，得到每一个视频片段对应原子动作的概率，然后与对应原子动作标签求交叉熵来约束网络的训练。通过GA模块，成功实现了视觉特征和文本特征表示之间的桥接。
为了去增强训练的鲁棒性我们加入了一致性损失函数来。好处第一点是想让相同对应原子动作的片段特征更为相似，这样能够缓解网络对于特征差值较大的敏感性，避免模型过度拟合，增强网络鲁棒性。第二点还扩大了不同原子动作对应片段的特征，使得由原子动作组成的复杂动作特征在空间中的分布更具有可区分度。

PS：

对于相关的一些公式并没有提及，可以自行观看原论文。论文里有一些细枝末节并未提及，在这里这表达了对于论文的整体思想的表达，如有遗漏，请自行补缺。

aixiaohly

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
论文解读《Rethinking Zero-shot Action Recognition:Learning from Latent Atomic Actions---ECCV---2022》

关于《Rethinking Zero-shot Action Recognition:Learning from Latent Atomic Actions》的论文阅读
复制链接

扫一扫