CVPR 2022 | 基于对齐和均匀表示学习的零样本视频分类

在这里插入图片描述

博通技术干货之零样本视频分类方案入选CVPR 2022

正文内容

导语 | 视频分类技术在视频内容理解相关业务中起着至关重要的作用,被广泛地应用于视频搜索、视频推荐等场景。复杂业务场景下分类体系的频繁变化为视频分类模型的快速迭代更新带来了极大的挑战。博通内容理解团队打造零样本视频分类方案来应对分类体系更新带来的挑战,在不需要新增标注数据和不重训模型的情况下识别新增类别,所提出的技术方案成功入选CVPR 2022。

博通内容理解平台,由TEG 机器学习平台部NLP技术中心打造。平台目前提供65+种能力,涵盖了分类标签、内容质量、特定属性和基础能力等四个大类,支持图文、视频和直播等主要内容形态,广泛应用于腾讯看点、微视、微信搜一搜、AMS广告等业务中,平台日均调用量6亿+次。

CVPR是计算机视觉和模式识别领域的顶级会议,被中国计算机学会(CCF)列为A类国际学术会议,在谷歌学术的会议和期刊影响力榜单中排名第4。CVPR每年吸引数以千计的公司和机构参会,论文入选单位通常都是世界一流大学、研究机构和顶尖企业。2022年CVPR共收到8161篇投稿,录用率为25.33%。

下面我们对博通团队入选的零样本视频分类论文进行详细解读:

AURL:基于对齐和均匀表示学习的零样本视频分类

Alignment-Uniformity aware Representation Learning for Zero-shot Video Classification

论文arxiv版本:https://arxiv.org/abs/2203.15381

1. 任务介绍

人类能够识别从没见过的事物。受此启发,零样本视频分类旨在利用有标注类别的视频进行训练,使其具备识别无标注类别的视频的能力。和视频分类任务相似,学术界主要将零样本视频分类应用在行为识别任务上。通常现有方法在大规模训练数据集上进行训练(比如:Kinetics-700数据集),然后在其他行为识别数据集上进行测试(比如:UCF-101数据集和HMDB-51数据集)。

2. 研究介绍

Trulli
图1: 视觉和类别名语义特征表示。比较SoTA方法[1]和我们的方法学习到的特征表示。圆点和三角形分别代表视觉特征和类别名语义特征;不同的颜色代表不同的类别;此外,我们用两个度量来衡量特征关于对齐性(Closeness,越小越好)和均匀性(Dispersion,越大越好)的质量。如图所示,我们方法的同类的视觉和类别名语义特征更相似,语义簇之间更分散。

当前,零样本视频分类模型主要是将视觉特征和类别名语义特征映射到一个统一的表征空间,建立视觉和语义特征的关联,并希望这种关联性能够泛化到无标注的类别。由于当前的方法利用有限的有标注类别来学习关联表示,它们面临着两个关键问题:(1)语义间隔问题:视觉和类别名语义特征的流形不一致。(2)域漂移问题:当把在训练集上训练过的模型应用到测试集时,由于两个集合的类别没有交集,学习到的特征倾向于表示训练集类别而非测试集类别。在零样本视频分类中,这两个问题对模型的泛化性能产生负面影响。

通过大量的文献阅读,我们发现大部分当前的方法着重于解决语义间隔问题,它们通过学习对齐表征来确保同一个类别的视觉和类别名语义特征足够相似。为了提升对齐性,MSE loss、Ranking loss和Center loss常被用来优化视觉和类别名语义特征之间的相似性。除了考虑损失函数,这些方法通过模型结构设计来提升对齐性,比如:早期的方法[2,3,4]首先将全局的视觉特征映射到局部的物体属性,然后优化属性和最终类别名语义之间的相似性。相比于这种间接的结构,URL[5]、Action2Vec[6]和TARN[7]纳入注意力机制直接学习视觉和类别名语义特征间的对齐性。由于视频特征较难学习,上述方法会先用视频分类任务预训练好的模型来提取视觉特征,再学习和类别名语义特征对齐的视觉特征。最近的模型[1]将R(2+1)D模型作为视频特征提取器,并将其纳入端到端学习,取得了SoTA的结果。然而,这个方法[1]没有将类别名语义特征纳入端到端学习。因此,我们认为这个方法[1]不是一个真正的端到端学习框架。我们将阐明真正的端到端学习是至关重要的,因为固定的视觉或类别名语义特征会给对齐学习带来阻碍。

最新的MUFI[8]和ER[9]方法开始着重于解决域漂移问题。MUFI[8]纳入多个数据集来进行模型训练,ER[9]从互联网上爬取并标注大量文字来替换类别名。这两个方法都通过纳入更多的语义信息来解决域漂移问题,同时也消耗了额外的资源。我们提出的方法不需要额外的标注,也没有复杂的网络结构,它通过保持有标注类别的最大化语义信息并合成无标注类别特征来解决域漂移问题。

为了同时解决语义间隔问题和域漂移问题,我们提出了一个端到端的框架来同时保持有标注类别和合成的无标注类别的对齐性和均匀性。这里,对齐性确保视觉和类别名语义特征之间的相似;均匀性鼓励特征均匀分布(即保持最大化信息),这能提高无标注类别特征落在有标注类别特征周围的概率,隐式地消除域漂移问题。具体地,我们将有监督对比损失构建为两项的组合:其中一项约束同类特征对齐,另一项引导语义簇间的均匀性。为了显示地缓解域漂移问题,我们提出了一个类生成器,通过内插和外推有标注类别的特征生成合成的无标注类的特征。此外,我们提出Closeness和Dispersion分数来度量对齐性和均匀性,它们可以作为模型泛化性能的新的度量。图1显示了我们提出的方法和SoTA[1]方法的特征表示,我们从Kinetics-700数据集中抽取10个类别来进行训练,然后把特征映射到3D超球面。通过图1 可以看到,我们方法的特征表示类内更聚集,同时语义簇之间更分散。大量实验结果证明,我们提出的方法显著地优于当前SoTA的方案,在UCF101和HMDB51数据集上分别取得了28.1%和27.0%的相对提升。

3. 实现方法

在这里插入图片描述

图2: AURL的网络结构:从左到右,我们将一个视频序列 I I I和类别名集合 Y \mathcal{Y} Y映射到统一的表示空间 ( f v ( g ( I ) ) , f s ( c ( Y ) ) ) (f_v(g(I)),f_s(c(\mathcal{Y}))) (fv(g(I)),fs(c(Y)))。在训练时,利用 L S L_S LS来学习有标注类别特征,使其保持对齐性和均匀性。对于合成的无标注类别,采用 L U S L_{US} LUS来学习合成的视觉和语义特征 ( Θ , Z ) (\mathcal{\Theta},Z) (Θ,Z)的对齐性和均匀性。为了合成无标注类别的特征,首先用 L C L_C LC来学习视觉中心 W W W,然后用提出的类生成器来利用视觉中心 W W W和有标注类别的语义特征 f s ( c ( Y ) ) f_s(c(\mathcal{Y})) fs(c(Y))生成 ( Θ , Z ) (\mathcal{\Theta},Z) (Θ,Z)。在推理时,用最近邻检索来进行分类。

3.1 网络结构

图2显示了AURL的网络结构。给定 K K K个类别名的集合 Y = { y 1 , ⋯   , y K } \mathcal{Y}=\{y_1,\cdots,y_K\} Y={ y1,,yK},和一个输入视频 I I I,该视频被标注为类 y i ∈ Y y_i \in \mathcal{Y} yiY(比如:playing basketball),我们端到端地训练视觉和语义embedding。我们采用R(2+1)D [10]
来作为 backbone提取视觉特征 g ( I ) g(I) g(I),然后用一个video projector f v f_v fv来实施3层MLP映射,从而获取视觉embedding f v ( g ( I ) ) ∈ R d f_v(g(I))\in \mathbb{R}^d fv(g(I))Rd。同时ÿ

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: CVPR计算机视觉与模式识别)是计算机领域中颇具知名度的顶尖会议之一,每年都会吸引全球众多顶尖科学家和企业参会,分享最新科研成果和技术应用。2022年,CVPR会议将继续举办,本次会议将会涵盖很多领域的研究和技术应用。 根据官方发布的信息,CVPR2022的主题为“计算机视觉的进一步发展”,会议涵盖范围广泛,包括但不限于深度学习计算机视觉、图像处理、机器学习、数据挖掘等方面的研究。 其中,会议主题包括但不限于: 1. 计算机视觉:特别关注图像和视频的理解、分割、检测和跟踪等方面。 2. 深度学习:针对对计算机视觉领域中涉及的多种深度学习技术进行深入研究,探讨其原理和优化方法。 3. 图像处理:主要关注图像生成、超分辨率、去噪以及图像重建和复原等技术。 4. 机器学习:探讨智能化和自主化技术,涉及到机器学习、增强学习、无监督学习、以及半监督学习等方面的研究和应用。 5. 数据挖掘:主要针对海量数据下的分类、聚类、降维和预处理等方面的研究,以及各种机器学习算法的实现和应用。 总之,CVPR2022是一个专注于计算机视觉和深度学习等领域的知名学术会议,各大领域的专家学者都将通过会议分享其最新成果、经验和技术进展,推动相关学科领域的发展和前进。 ### 回答2: CVPR2022计算机视觉领域的重要国际会议,将于2022年6月19日至24日在美国纽约举行。具体来说,CVPR2022主要聚焦于深度学习、3D计算机视觉、机器学习、计算机图形学以及视觉与语言等热门前沿领域。 CVPR2022将包括口头报告、海报展示等多种形式的会议论文。此外,本次会议还将举办工业界论坛、计算机视觉教育论坛、图像生成竞赛等各种精彩纷呈的活动。 此外,在CVPR2022会议中,也将有一些分类比赛。比赛包括:视觉目标跟踪、图像分类、物体探测与分割、视觉问答、场景还原等等。这些比赛不仅考验了各个领域科学家的技术水平,而且也为人们提供了一个深入了解最前沿技术的机会,也为产业界提供了一个展示智能产品研发技术的好平台。 总之,CVPR2022计算机视觉领域的盛事,各界专家云集,汇聚了数百篇最新的论文和客题演讲,将为大家带来前沿的研究成果和业界的最新发展,为该领域的研究进展提供有力的帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值