Few-Shot Action Recognition with Compromised Metric via Optimal Transport

最新推荐文章于 2024-04-17 02:21:11 发布

秃头嘤嘤魔

最新推荐文章于 2024-04-17 02:21:11 发布

阅读量681

点赞数 3

分类专栏：小样本学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42486554/article/details/115619132

版权

小样本学习专栏收录该内容

10 篇文章 11 订阅

订阅专栏

这篇文章基于最优传输OT来设计distance函数
paper: https://arxiv.org/pdf/2104.03737.pdf

Motivation

在小样本行为识别方法中，作者分析大致可以分为两种。一种是基于aggregation，即将视频分为若干segment，提取每个segment特征，采用average pooling等方式对segment特征进行聚合得到一个视频级特征，设计一个距离函数，计算unseen类特征到seen类特征距离，得到预测标签；另一种是基于matching的方法，即提取视频的segment特征后，对两个视频的n个segment进行align操作，比如OTAM中采用DTW对齐路径，将对齐损失作为两个视频的距离。

基于aggregation的方法直接采用sum操作将n个特征转化为一个特征，忽略了long-term时间信息；而基于matching的方法采用了严格的对齐函数，损伤了视频的内容特征。因此作者提出结合这两个方法来设计一个distance函数，从而使得既可以保留内容信息又不会忽视时间信息。

方法

首先采用3D卷积提取特征，将输入 $\mathbf{x}=\left[\mathrm{x}^{1}, \cdots, \mathrm{x}^{m}, \cdots, \mathrm{x}^{M}\right]$ 编码为 $\left[\phi\left(\mathrm{x}^{1}\right), \cdots, \phi\left(\mathrm{x}^{m}\right), \cdots, \phi\left(\mathrm{x}^{M}\right)\right]$ 。

content distance

用OT方法，首先需要定义 $\mu$ 和 $\nu$ ，作者采用视频在segment上的分布作为 $\mu$ 、 $\nu$ ，然后使用Sinkhorn Distance测量两个视频的差异。使用公式（8）和（9）计算两个视频 ${x_1}$ 和 ${x_2}$ 的语义距离， $\mu_1$ 、 $\mu_2$ 为一个M维的随机分布，采用欧氏距离计算segment距离。

$\operatorname{dis}^{\mathrm{SE}}\left(\mathrm{x}_{1}, \mathrm{x}_{2}\right)=\min _{\mathrm{T} \in \Pi\left(\boldsymbol{\mu}_{1}, \boldsymbol{\mu}_{2}\right)}\left\langle\mathbf{T}, \mathbf{C}^{\mathrm{SE}}\right\rangle-\frac{1}{\lambda} \mathcal{H}(\mathbf{T})$ （8）

$\mathrm{C}_{p q}^{\mathrm{SE}}=\left\|\phi\left(\mathrm{x}_{1}^{p}\right)-\phi\left(\mathrm{x}_{2}^{q}\right)\right\|_{2}, \forall p, q \in[M]$ （9）

$\operatorname{dis}^{\mathrm{SE}}\left(\mathrm{x}_{1}, \mathrm{x}_{2}\right)$ 即为两个视频内容上的距离，还要考虑两个视频的order距离。

temporal distance

positional Cost Matrix：考虑long-term关系的目的是确保视频1中的segment被映射到视频2的segment的邻近位置，这可以用来区分一些对顺序敏感的动作。作者定义了一个positional cost matrix ${\mathbf{C}^{PO}}$ ，它的值随着相关位置距离 $\left(\frac{p}{M}-\frac{q}{M}\right)^{2}$ 的增加而增加。和公式（8）类似，可以定义两个视频的位置距离为公式（11）。可以看出 ${\mathbf{C}^{PO}}$ 通过给距离远的片段分配更大的运输成本，来实现对视频顺序的软调整。

$\mathbf{C}_{p q}^{\mathrm{PO}}=\exp \left\{-\frac{1}{\sigma^{2}} \frac{1}{\left(\frac{p}{M}-\frac{q}{M}\right)^{2}+1}\right\}, \forall p, q \in[M]$ （10）

$\operatorname{dis}^{\mathrm{PO}}\left(\mathbf{x}_{1}, \mathbf{x}_{2}\right)=\min _{\mathbf{T} \in \Pi\left(\boldsymbol{\mu}_{1}, \boldsymbol{\mu}_{2}\right)}\left\langle\mathbf{T}, \mathbf{C}^{\mathrm{PO}}\right\rangle-\frac{1}{\lambda} \mathcal{H}(\mathbf{T})$ （11）

CMOT

在这里插入图片描述

根据前面计算得到的语义距离和时序距离，定义两个视频的距离为：

$\operatorname{dis}\left(\mathrm{x}_{1}, \mathrm{x}_{2}\right)=\operatorname{dis}^{\mathrm{SE}}\left(\mathrm{x}_{1}, \mathrm{x}_{2}\right)+\alpha \operatorname{dis}^{\mathrm{PO}}\left(\mathrm{x}_{1}, \mathrm{x}_{2}\right)$ （12）

通过一个矩阵的点积操作，还可以将公式（12）写为：
$\begin{aligned} \operatorname{dis}\left(\mathbf{x}_{1}, \mathbf{x}_{2}\right) &=\min _{\mathbf{T} \in \Pi\left(\boldsymbol{\mu}_{1}, \boldsymbol{\mu}_{2}\right)}\langle\mathbf{T}, \mathbf{C}\rangle-\frac{1}{\lambda} \mathcal{H}(\mathbf{T}) \\ \text { s.t. } & \mathbf{C}=\mathbf{C}^{\mathrm{SE}}+\alpha \mathbf{C}^{\mathrm{PO}} \end{aligned}$ （13）

结合前面小样本的N-way K-shot的公式，最终CMOT的模型表示为:
$\begin{array}{ll}\min _{\phi} & \sum_{\mathcal{T}^{t r} \sim \mathcal{D}^{t r}} \sum_{\left(\mathbf{x}_{j}, y_{j}\right) \in \mathcal{Q}^{t r}}-\log p\left(\hat{y}_{j}=y_{j} \mid \mathbf{x}_{j}\right) \\ \text { s.t. } & \operatorname{dis}\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\min _{\mathbf{T} \in \Pi\left(\boldsymbol{\mu}_{i}, \boldsymbol{\mu}_{j}\right)}\langle\mathbf{T}, \mathbf{C}\rangle-\frac{1}{\lambda} \mathcal{H}(\mathbf{T}) \\ & \mathbf{C}=\mathbf{C}^{\mathrm{SE}}+\alpha \mathbf{C}^{\mathrm{PO}}\end{array}$ (14)

实验

数据集：HMDB51、UCF101、SM2SM
在这里插入图片描述

总结

作者基于最优传输问题OT，重定义了小样本中的距离函数，同时考虑了视频的语义信息和时序信息，最后取得了SOTA。
1、定义了Semantic distance和positional distance
2、基于视频在segment上的分布计算positional distance，通过对相距远的片段施加更大传输代价实现一个排序的软调整。