本周,最新的 SOTA 论文出炉、计算机视觉领域的综述和回顾论文以及有关GAN的研究等。
目录:
论文 1:Omni-Scale Feature Learning for Person Re-Identification
摘要:作为一个实例级识别问题,人体再识别(personal re-identification,ReID)依赖于差异特征,其不仅可以捕获不同的空间尺度,而且能够封装多尺度的任意组合。我们通常将同构和异构尺度的特征称为全尺度(omni-scale)特征。在本文中,来自萨里大学、伦敦玛丽女王大学和剑桥三星人工智能中心(SAIC-Cambridge)的四位研究者设计了一种用于全尺度特征学习的深度 ReID 卷积神经网络(CNN),他们称之为全尺度网络(Omni-Scale Network,OSNet)。这是通过设计包含多个特征卷积流的残差块来实现的,每个卷积流检测一定尺度内的特征。重要的是,他们提出了一种新颖的统一聚合门(unified aggregation gate),以动态融合多尺度特征以及与输入相关的通路级权重。为了有效地学习到空间-通路的相关性并避免过拟合,构建块使用了逐点和深度卷积。通过逐层堆叠此类构建块,研究者提出的 OSNet 非常轻量级,并可以在现有的 ReID 基准上从零开始进行训练。尽管模型尺寸较小,但 OSNet 在 6 个人体 ReID 数据集上均实现了 SOTA 性能,大大超越了多数大尺寸模型。
▲图 1:以上四组图像表明人体再识别是一个难题。每个图像中,左边是检索图像,中间是真实匹配,右边是冒充者/假匹配。
▲图 2:全尺度网络(OSNet)的构建块图解。R 表示接受域大小。
▲图 4:(a)基线瓶颈;(b)本文提出的瓶颈。AG 表示聚合门。第一个/最后一个 1×1 层用于降低/修复特征维数。
推荐:行人再识别一直是图像方面的重点研究领域。本文是最新的 SOTA 论文,读者可参考了解最新的研究进展。
论文 2:Deep Learning vs. Traditional Computer Vision
作者:Niall O』 Mahony、Sean Campbell、Anderson Carvalho 等
摘要:深度学习已经推动到了数字图像处理领域的发展极限。但是,这并不是说在深度学习兴起之前的几年中,一直在逐步发展的传统计算机视觉技术已经过时了。在本文中,研究者将分析每种方法的优缺点,其目的在于深入探讨是否应保留经典计算机视觉技术的相关知识。本文还将探讨如何将计算机视觉的两个方面结合起来。此外,本文回顾了近期的几种混合方法,证明了这些方法有能力提升计算机视觉性能并解决深度学习所不能解决的问题。例如,传统计算机视觉技术与深度学习的结合已经在全景视野和三维视觉等新兴领域流行开来,而单独的深度学习模型在这些领域中尚未实现完全优化。
推荐:本文是计算机视觉领域的综述和回顾论文。作者对比了深度学习和传统方法的优缺点,并提出了相应的应用领域。
论文 3:Seeing What a GAN Cannot Generate
摘要:生成对抗网络(GAN)现在已经能合成极具真实感的图像了,但 MIT、IBM 和香港中文大学的一项研究表明 GAN 在合成图像时会遗漏目标分布中的一些细节。未来的 GAN 设计者如果能够充分考虑这种遗漏情况,应该能够打造出更加高质量的图像生成器。研究者已经公布了相关论文、代码和数据。MIT 的这项研究在分布层面和实例层面对模式崩塌进行了可视化。
图 1a 展示了在一个教堂 GAN 模型中,相比于训练分布,人、车和栅栏等目标类别在生成分布中出现的像素更少。
▲图 1:看 GAN 不能生成什么:(a)作者比较了 LSUN 教堂训练集中的目标分割分布与生成结果的分布:生成器丢弃了人、车和栅栏等目标。(b)一张真实图像及其重建图像的比较,其中一个人和栅栏的实例无法生成。每组图中,左上角的是真实照片,右上角的是生成的重建图像,下面两张是各自的分割映射图。
推荐:GAN 究竟在做什么?这是研究者经常思考的问题。本文通过研究 GAN 的生成结果,了解这种模型及其变体的特点,并提出了可行的改进建议。
△ 关注极市平台
获得最新CV干货