【论文笔记】【ICCV 2021 Oral】Evidential Deep Learning for Open Set Action Recognition-CSDN博客

本文链接：https://blog.csdn.net/qq_36018232/article/details/119925067

Evidential Deep Learning for Open Set Action Recognition

论文地址：https://arxiv.org/pdf/2107.10161.pdf

摘要

在真实场景中，人的动作通常不在训练数据的分布范围内，这就需要一个模型来识别已知的动作并拒绝未知的动作。与图像数据不同的是，由于人类动作的时间动态和静态偏差的不确定性，视频动作在开放场景下更难识别。在本文中，我们提出了一种深度证据动作识别(Deep evidence Action Recognition, DEAR)方法来识别开放测试集中的动作。具体地说，我们从证据深度学习(EDL)的角度制定了动作识别问题，并提出了一种新的模型校准方法来规范EDL训练。此外，为了减少视频表示的静态偏置，我们提出了即插即用模块，通过对比学习消除学习后的偏置。实验结果表明，该方法在多种主流动作识别模型和基准上取得了一致的性能增益。代码和预先训练的模型可以在https://www.rit.edu/actionlab/dear上找到。

解决问题

open set recognition (OSR)。闭集上的视频动作识别是将包含人体动作的视频分类为预定义的动作类别之一。开放集识别需要识别来自已知类的动作和拒绝来自未知类的动作。

OSR难题 1）人类行为的高度多样性；2）静态的偏置线索的影响。比如图中，同样识别冲浪这一动作，在训练集中，这一动作数据的环境都是天空和水，但开放集中不是，是在室内环境，这样的背景偏置就有可能影响开放集中的识别。再比如，猫咪弹钢琴，重点在动作playing，钢琴这一物体容易与playing关联，产生不必要的偏置线索。还有穿军装行军，军装会产生偏置线索。
**图1 静态偏置的解释** 已有工作 图片领域的OSR较多，在视频领域只有两个简单工作，做法是简单地将每个视频视为一个独立的样本，在训练过程中逐步增加未知类别，并主要依赖于基于图像的OSR方法。因此，它们无法解决上述开放场景中固有的特定视频挑战。

本文贡献

本文提出一个新的分类方法，使用证据深度学习(EDL)将OSR表述为一个不确定性估计问题，使预测类别概率服从Dirichlet分布(多维β分布)，除了预测类别的概率，还预测不确定性。
为了克服EDL在封闭集中训练可能存在的过拟合风险，提高泛化能力，本文提出一种新的模型校准方法Evidential Uncertainty Calibration (EUC)，通过考虑精度和不确定性之间的关系来正则化EDL学习过程。
为了减轻视频动作的静态偏置问题，本文提出一种即插即用的模块Contrastive Evidence Debiasing (CED) ，通过对比学习消除学习后的偏置。

文中将所提新分类头与四种backbone网络（I3D、TSM、TPN、SlowFast）结合，并对比其他类型分类头，得出视频osr问题上的最好结果。

模型Overview

结构：AR backbone + Evidential Neural Network (ENN)分类头。模型使用Evidential Deep Learning(EDL) loss代替交叉熵损失训练。
过程：输入一个视频，经过一个动作分类模型，文中给了四种主流模型，之后经过一个分类头，该分类头的特点是不止确定多分类概率，还确定预测概率的不确定性。
目标：在开放集测试中，高不确定性视频可视为未知动作，低不确定性视频可根据学习到的分类概率进行分类。
在这里插入图片描述
解决具体两点问题：

训练中加入即插即用的Contrastive Evidence Debiasing (CED)模块消除视频中人类行为表现的偏差。
Evidential Uncertainty Calibration (EUC)算法正则化，解决潜在的过拟合问题。

在这里插入图片描述

模型结构

第一部分 Evidential Neural Network

引入：给定样本进行多分类，假设分类概率遵循先验Dirichlet狄利克雷分布。通过预测分类证据，建立Dirichlet狄利克雷分布，从而确定输入的多分类概率和预测的不确定性。

Dirichlet狄利克雷分布：是一类在实数域以正单纯形为支撑集的高维连续概率分布，是Beta分布在高维情形的推广。Beta分布是二项分布乘上[0,1]的均匀分布。所以狄利克雷分布相当于带不确定性的多项分布。且对于多分类问题，狄利克雷先验比较耦合这个问题。通过贝叶斯法则，可以验证后验也是狄利克雷分布。
在这里插入图片描述
通过网络结构输出