2018年4月17日,据人工智能领域顶级国际会议The 27th International Joint Conference on Artificial Intelligence(IJCAI 2018)通知,北京大学计算机科学技术研究所彭宇新课题组的6篇论文被IJCAI 2018录用为口头报告论文(共投稿7篇),彭宇新教授是这6篇论文的通讯作者。其中两篇论文的第一作者为大四本科生张晨睿(已保研),两篇论文的第一作者为二年级硕士生綦金玮。这6篇论文的研究内容涉及跨媒体分析与检索、视频内容分析、图像细粒度分类等方向。
The 27th International Joint Conference on Artificial Intelligence (IJCAI) 将于2018年7月13日至19日在瑞典斯德哥尔摩举行。IJCAI是人工智能领域的顶级国际会议,也是CCF A类会议,从1969年至2015年每两年举办一次,从2016年起每年举办一次。ECAI是欧洲人工智能领域最重要的国际会议,从1974 年每两年举办一次。IJCAI-ECAI 2018将由IJCAI、EurAI和SAIS联合举办。IJCAI 2018共有3470篇论文提交,录用率为20.5%。
这6篇论文的主要研究内容如下:
(1) Better and Faster: Knowledge Transfer from Multiple Self-supervised Learning Tasks via Graph Distillation for Video Classification
作者:张晨睿,彭宇新
视频表征学习在视频分类中发挥着重要作用。近年来兴起的自监督学习方法可以利用视频内部丰富的上下文信息作为监督信号,通过设计辅助任务的方式实现无监督视频表征学习。然而,现有的自监督学习方法仅考虑了单一的辅助任务,忽略了不同任务之间的互补性;同时,视频分类模型的参数众多,高昂的计算和存储开销限制了这些方法在实际中的应用。针对上述问题,本文提出了一种图蒸馏学习框架,旨在利用多种自监督任务之间的互补性和信息冗余性,以更少的模型参数学习更鲁棒的视频表征。具体地,在分类器级别和内部特征级别对多种自监督学习模型的知识进行提取。文章在分类器级别,将知识蒸馏看作是一个多分布联合匹配问题,利用Earth Mover距离作为蒸馏图的边信息流,动态地学习类别间不同表征的互补性;在内部表征级别,利用紧凑双线性池化构建蒸馏图结点,进而通过最大平均差异度量实现内部特征模式的动态迁移。实验结果证明了本文方法的有效性。
(2) Visual Data Synthesis via GAN for Zero-Shot Video Classification
作者:张晨睿,彭宇新
现有零样本学习方法采用特征嵌入的方式实现对语义信息的利用,从而建立从源域到目标域的语义关联。然而,这种方法忽略了数据分布中隐含的判别力信息,而且存在信息退化的问题,因此难以在复杂的视频零样本分类中取得好的效果。针对上述问题,本文提出了一种基于视频特征生成的零样本分类方法,利用对抗学习建立视频特征和语义信息之间的联合分布,借助生成的视频特征训练分类器以实现从零样本分类到有监督分类的转化。具体地,本文提出了一种对抗式双向合成的方法,在利用语义信息合成视频特征的同时,建立从视频特征到语义信息的推断,保证了所合成视频特征的判别力和鲁棒性。同时,为了应对视频特征和语义信息之间的“异构鸿沟”问题,本文提出了一种基于互信息的视觉-语义关联约束,从统计依赖的角度实现语义关联知识的迁移。实验结果证明了本文方法的有效性。
(3) Cross-modal Bidirectional Translation via Reinforcement Learning
作者:綦金玮,彭宇新
本文将机器翻译的思想应用到跨媒体检索中,将图像和文本看作两种不同的语言,提出了跨模态双向翻译方法,同时结合强化学习来提升翻译效果。首先,设计了跨模态翻译机制,并构建基于循环神经网络的序列模型挖掘图像和文本的细粒度上下文信息,同时在图像和文本各自的特征空间之间实现相互翻译,不仅能够充分利用不同模态内部特有的信息,而且通过双向翻译的过程有效地促进跨模态关联学习。然后,本文提出了跨模态强化学习策略,并设计了两种奖励信号包括模态间关联学习误差和模态内重建误差,通过两者之间的相互促进能够进一步提高跨模态关联学习的效果。本文方法的有效性在三个广泛使用的跨模态数据集上得到了验证,包括Wikipedia数据集、Pascal Sentence数据集和XMediaNet数据集。
(4) Cross-media Multi-level Alignment with Relation Attention Network
作者:綦金玮,彭宇新,袁玉鑫
现有跨媒体检索方法仅仅考虑了图像和文本的全局或是内部不同实体之间的对应关系,而忽略了不同媒体数据内部实体关系之间的对应。针对上述问题,本文提出了跨媒体关系注意力网络,实现了不同媒体数据之间的多级对齐。首先,本文提出了视觉-语言关系注意力模型,分别提取图像内部表示实体的局部区域及其之间的关系,并从文本中挖掘出描述实体关系的关键词,能够为跨媒体关联学习提供充足且具有互补性的信息。然后,本文提出了跨媒体多级对齐策略,分别建模图像和文本之间的全局、实体以及实体关系三个级别的对应关系,同时通过三者的融合能够有效地促进跨媒体关联学习,进而提高跨媒体检索的准确率。本文方法的有效性在两个广泛使用的跨媒体数据集上得到了验证,包括Flickr-30K数据集和MS-COCO数据集。
(5) Dual Adversarial Networks for Zero-shot Cross-media Retrieval
作者:迟敬泽,彭宇新
现有的跨媒体检索方法训练集和测试集类别通常是完全相同的,导致不能有效地支持新类别数据的检索。而在实际应用中,面对数量巨大且不断增长的类别,跨媒体数据的采集和标注都是极为费时费力的。因此,如何提高对于新类别检索的扩展能力,是跨媒体检索走向实际应用的一大挑战。针对零样本跨媒体检索问题,本文提出了跨媒体对偶对抗学习方法,利用类别语义特征构建跨媒体统一表征,提高对新类别跨媒体数据的检索效果。首先,本文提出了对偶生成对抗网络结构,跨媒体数据原始特征与统一表征通过生成对抗网络进行互相转换,两种转换构成对偶关系并互相促进,进一步挖掘跨媒体数据的潜在结构信息,同时加强跨媒体数据空间和语义空间的关联。然后,本文提出针对零样本跨媒体检索的对抗训练方法,使统一表征充分建模媒体间的关联关系,同时加强对新类别检索的扩展能力。实验结果证明了本文方法的有效性。
(6) StackDRL: Stacked Deep Reinforcement Learning for Fine-grained Visual Categorization
作者:何相腾,彭宇新,赵俊杰
细粒度图像类别具有类间差异小、类内差异大的特点,其分类问题是计算机视觉领域的一个极具挑战的任务。本文提出了堆叠式深度强化学习方法以解决细粒度视觉分类中的“which”和“how many”问题,能够有效地定位具有辨识力的细微差异,提高细粒度分类准确率。首先,本文提出了两阶段学习方法,序列式地定位物体及其关键区域,并自动选择关键区域的数目,避免了现有方法依赖先验知识和实验验证所造成的易用性和可扩展性上的局限性。其次,本文提出语义奖惩函数,使得模型能够定位更具辨识力和代表性的区域。进一步,本文通过强化学习方法以及注意力奖惩模型,实现了无监督条件下的关键区域定位,提高了图像细粒度的分类效果。
编辑:白杨