博通技术干货之零样本视频分类方案入选CVPR 2022
正文内容
导语 | 视频分类技术在视频内容理解相关业务中起着至关重要的作用,被广泛地应用于视频搜索、视频推荐等场景。复杂业务场景下分类体系的频繁变化为视频分类模型的快速迭代更新带来了极大的挑战。博通内容理解团队打造零样本视频分类方案来应对分类体系更新带来的挑战,在不需要新增标注数据和不重训模型的情况下识别新增类别,所提出的技术方案成功入选CVPR 2022。
博通内容理解平台,由TEG 机器学习平台部NLP技术中心打造。平台目前提供65+种能力,涵盖了分类标签、内容质量、特定属性和基础能力等四个大类,支持图文、视频和直播等主要内容形态,广泛应用于腾讯看点、微视、微信搜一搜、AMS广告等业务中,平台日均调用量6亿+次。
CVPR是计算机视觉和模式识别领域的顶级会议,被中国计算机学会(CCF)列为A类国际学术会议,在谷歌学术的会议和期刊影响力榜单中排名第4。CVPR每年吸引数以千计的公司和机构参会,论文入选单位通常都是世界一流大学、研究机构和顶尖企业。2022年CVPR共收到8161篇投稿,录用率为25.33%。
下面我们对博通团队入选的零样本视频分类论文进行详细解读:
AURL:基于对齐和均匀表示学习的零样本视频分类
Alignment-Uniformity aware Representation Learning for Zero-shot Video Classification
论文arxiv版本:https://arxiv.org/abs/2203.15381
1. 任务介绍
人类能够识别从没见过的事物。受此启发,零样本视频分类旨在利用有标注类别的视频进行训练,使其具备识别无标注类别的视频的能力。和视频分类任务相似,学术界主要将零样本视频分类应用在行为识别任务上。通常现有方法在大规模训练数据集上进行训练(比如:Kinetics-700数据集),然后在其他行为识别数据集上进行测试(比如:UCF-101数据集和HMDB-51数据集)。
2. 研究介绍
![Trulli](https://km.woa.com/gkm/api/img/cos-file-url?url=https%3A%2F%2Fkm-pro-1258638997.cos.ap-guangzhou.myqcloud.com%2Ffiles%2Fphotos%2Fpictures%2F202204%2F1648807371-7032-6246cdcbabb24-414981.jpg&is_redirect=1)
当前,零样本视频分类模型主要是将视觉特征和类别名语义特征映射到一个统一的表征空间,建立视觉和语义特征的关联,并希望这种关联性能够泛化到无标注的类别。由于当前的方法利用有限的有标注类别来学习关联表示,它们面临着两个关键问题:(1)语义间隔问题:视觉和类别名语义特征的流形不一致。(2)域漂移问题:当把在训练集上训练过的模型应用到测试集时,由于两个集合的类别没有交集,学习到的特征倾向于表示训练集类别而非测试集类别。在零样本视频分类中,这两个问题对模型的泛化性能产生负面影响。
通过大量的文献阅读,我们发现大部分当前的方法着重于解决语义间隔问题,它们通过学习对齐表征来确保同一个类别的视觉和类别名语义特征足够相似。为了提升对齐性,MSE loss、Ranking loss和Center loss常被用来优化视觉和类别名语义特征之间的相似性。除了考虑损失函数,这些方法通过模型结构设计来提升对齐性,比如:早期的方法[2,3,4]首先将全局的视觉特征映射到局部的物体属性,然后优化属性和最终类别名语义之间的相似性。相比于这种间接的结构,URL[5]、Action2Vec[6]和TARN[7]纳入注意力机制直接学习视觉和类别名语义特征间的对齐性。由于视频特征较难学习,上述方法会先用视频分类任务预训练好的模型来提取视觉特征,再学习和类别名语义特征对齐的视觉特征。最近的模型[1]将R(2+1)D模型作为视频特征提取器,并将其纳入端到端学习,取得了SoTA的结果。然而,这个方法[1]没有将类别名语义特征纳入端到端学习。因此,我们认为这个方法[1]不是一个真正的端到端学习框架。我们将阐明真正的端到端学习是至关重要的,因为固定的视觉或类别名语义特征会给对齐学习带来阻碍。
最新的MUFI[8]和ER[9]方法开始着重于解决域漂移问题。MUFI[8]纳入多个数据集来进行模型训练,ER[9]从互联网上爬取并标注大量文字来替换类别名。这两个方法都通过纳入更多的语义信息来解决域漂移问题,同时也消耗了额外的资源。我们提出的方法不需要额外的标注,也没有复杂的网络结构,它通过保持有标注类别的最大化语义信息并合成无标注类别特征来解决域漂移问题。
为了同时解决语义间隔问题和域漂移问题,我们提出了一个端到端的框架来同时保持有标注类别和合成的无标注类别的对齐性和均匀性。这里,对齐性确保视觉和类别名语义特征之间的相似;均匀性鼓励特征均匀分布(即保持最大化信息),这能提高无标注类别特征落在有标注类别特征周围的概率,隐式地消除域漂移问题。具体地,我们将有监督对比损失构建为两项的组合:其中一项约束同类特征对齐,另一项引导语义簇间的均匀性。为了显示地缓解域漂移问题,我们提出了一个类生成器,通过内插和外推有标注类别的特征生成合成的无标注类的特征。此外,我们提出Closeness和Dispersion分数来度量对齐性和均匀性,它们可以作为模型泛化性能的新的度量。图1显示了我们提出的方法和SoTA[1]方法的特征表示,我们从Kinetics-700数据集中抽取10个类别来进行训练,然后把特征映射到3D超球面。通过图1 可以看到,我们方法的特征表示类内更聚集,同时语义簇之间更分散。大量实验结果证明,我们提出的方法显著地优于当前SoTA的方案,在UCF101和HMDB51数据集上分别取得了28.1%和27.0%的相对提升。
3. 实现方法
图2: AURL的网络结构:从左到右,我们将一个视频序列 I I I和类别名集合 Y \mathcal{Y} Y映射到统一的表示空间 ( f v ( g ( I ) ) , f s ( c ( Y ) ) ) (f_v(g(I)),f_s(c(\mathcal{Y}))) (fv(g(I)),fs(c(Y)))。在训练时,利用 L S L_S LS来学习有标注类别特征,使其保持对齐性和均匀性。对于合成的无标注类别,采用 L U S L_{US} LUS来学习合成的视觉和语义特征 ( Θ , Z ) (\mathcal{\Theta},Z) (Θ,Z)的对齐性和均匀性。为了合成无标注类别的特征,首先用 L C L_C LC来学习视觉中心 W W W,然后用提出的类生成器来利用视觉中心 W W W和有标注类别的语义特征 f s ( c ( Y ) ) f_s(c(\mathcal{Y})) fs(c(Y))生成 ( Θ , Z ) (\mathcal{\Theta},Z) (Θ,Z)。在推理时,用最近邻检索来进行分类。
3.1 网络结构
图2显示了AURL的网络结构。给定 K K K个类别名的集合 Y = { y 1 , ⋯ , y K } \mathcal{Y}=\{y_1,\cdots,y_K\} Y={
y1,⋯,yK},和一个输入视频 I I I,该视频被标注为类 y i ∈ Y y_i \in \mathcal{Y} yi∈Y(比如:playing basketball),我们端到端地训练视觉和语义embedding。我们采用R(2+1)D [10]
来作为 backbone提取视觉特征 g ( I ) g(I) g(I),然后用一个video projector f v f_v fv来实施3层MLP映射,从而获取视觉embedding f v ( g ( I ) ) ∈ R d f_v(g(I))\in \mathbb{R}^d fv(g(I))∈Rd。同时ÿ