CVPR2016 主旨演讲及焦点论文速览

CVPR2016计算机视觉国际会议显示深度学习成为主流技术，谷歌等机构展示了多项研究成果，如视频中关键目标的识别与预测。但也有学者担忧过度依赖深度学习可能限制领域的多样化发展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文首发于微信公众号：。文章内容属作者个人观点，不代表和讯网立场。投资者据此操作，风险请自担。

　　1新智元原创

　　来源：CVPR、Google Research、Twitter

　　作者：闻菲

　　【新智元导读】计算机视觉国际顶尖会议CVPR2016近日召开，从提交论文和口头报告内容看，深度学习成为主流。本文介绍会议概况及相关成果，比如谷歌教计算机学会分辨并预测视频中关键目标。同时也介绍法国Inria 研究所 Nikos Paragios 的担忧：眼下计算机视觉领域过于关注深度学习，如果是一时的热潮还好，但研究者应该保持研究多样化，坚持基础理论研究。

2016年的计算机视觉领域国际顶尖会议 Computer Vision and Pattern Recognition conference（CVPR2016）昨天在美国拉斯维加斯召开，会议将持续到当地时间6月30日下午。

　　本届会议共收到论文 2145 篇，创下历史记录（有效 1865 篇）。会议接收论文 643 篇（接收率 29.9%）。其中，今年的大会还特别开设 Spotlight Session，让 123 篇论文的讲者有 4 分钟的时间口头介绍其研究核心。

　　大会共有 3 位主旨演讲人。第一天是 Amnon Shashua，著名计算机视觉算法公司 Mobileye 的联合创始人。第二天，也就是今天的主旨演讲，由哈佛大学心理系教授 Elizabeth Spelke 进行，主题是科学研究中的男女性别平等。明天的主旨演讲者是牛津大学人类未来研究所的教授 Nick Bostrom。这样看，不仅仅是计算机视觉和模式识别，主办方连科研性别平等和人工智能发展趋势都考虑了进去。

【点击查看大图】CVPR2016 活动日程表。短短三天，承载这么多的内容。

深度学习一统计算机视觉江湖

　　根据 Twiiter 上的消息，主要展台都各有看点。例如 Twitter Cortex，刚刚收了 Magic Pony，展台前聚集了很多人。

Twitter Cortex 展台前人群聚集。来源：Twitter

　　MIT的研究者在会议上发布了给视频配音的研究。

　　谷歌也在 Google Research Blog 刊登出了 CVPR 2016 相关内容，论文、口头报告、研讨会，加起来总共十几项。

　　TechCrunch 具体报道了谷歌与几所高校合作的项目。

　　其中，谷歌与斯坦福大学合作，教计算机学会分辨场景中的关键信息。这项研究的目的是在同时有多人场景的视频中跟踪关键目标。论文以篮球比赛视频为例，计算机需要识别出场上最应该注意的球员。

从画面中识别出关键目标才能提供更大信息量

　　研究人员利用递归神经网络设计了一个计算机视觉系统，下图就是计算机查看每一帧画面时的“注意力模式”（attention mask）。图中红框标注场上球员，五角星代表篮球，持球运动员则用蓝框表示。

三分球、成功抢到篮板球和投篮失败的场景

　　经过训练后，这个使用递归神经网络的系统不仅能够识别出当前画面中的关键目标，也可以预测接下来即将成为关键目标的是什么，这样画面与画面之间的动作变化则将前后的关键部分连接起来。

　　谷歌与爱丁堡大学合作的一项研究，图像识别系统的任务是学会找出每一帧画面里，老虎的四条腿是如何运动的，并且预测接下来它将如何迈步。以往的研究是将画面中活动的物体当做一个整体，这项研究则分别跟踪老虎的四条腿，并分别预测接下来每条腿的运动轨迹。

　　谷歌与 UCLA、牛津大学以及约翰霍普金斯大学合作的研究，训练图像识别系统理解照片中不同部分的互动关系，生成更精确的描述。

　　当然，上面介绍的这三篇论文都使用了深度学习。实际上，正如 TechCrunch 报道最后所说，放眼望去，深度学习几乎成了如今计算机视觉研究的标配。

　　同样，本届 CVPR 2016最佳学生论文、斯坦福大学的 “Structural-RNN: Deep Learning on Spatio-Temporal Graphs”，也是使用深度学习做图像识别。

深度学习唯一选择

　　不过，也有人对此表示了担心。

　　法国 Inria 研究所的研究员 Nikos Paragios 在 LinkedIn 撰文指出，直到 2010年，计算机视觉领域相关会议所涉及的专题，无论是从内容上还是从方法上都相对完善，包括早期视觉、分割和组合、运动检测和跟踪、视觉识别以及三维视觉，而且几乎所有研究都用到了统计、几何和优化的方法。参加这样的一次会议，能让人对计算机视觉技术的现状、问题及发展获得全面的了解。

　　但如今，绝大部分研究都使用了深度学习。当然，Paragios 也表示，每个时期都自有其主导的潮流：20 世纪 80 年代是立体视觉（stereo）、20 世纪 90 年代是连续方法和分割组合，世纪之交离散方法上位，人们也开始再次关注视觉识别和描述。与此同时，机器学习作为最新一股后浪随着前浪袭来，但尽管如此，当时的计算机视觉研究还算多样化，任选一个子领域就能看见新的想法。

　　但现在情况则大不相同。各个研究都专注于使用深度学习的方法解决计算机视觉问题，会议接收的论文里，发表的论文中有 80% 到 90%，口头报告更是接近 100% 都来自深度学习领域。Paragios 在文章中写道，虽然这样做没有问题，这些论文也都体现了实力，但他想知道这些研究“增加的”科学价值在哪里。

　　在 Paragios 看来，除了一小部分人还在坚持做基础研究，探索深度学习方法的理论概念，大部分人似乎都跑去搭建更复杂、更庞大的框架——而且从所提交的论文看，基本上所有描述的框架都是不可扩展的。也就是说，尽管表面上看去成果丰硕，但深究起来这些论文背后几乎没有什么理论论证，因此也谈不上为某个基准增添了性能。Paragios 指出，这并不是做学术研究的方法。众人的注意力都放在更快的速度更高的效率上，但追求的目标还是与以往一样，并不远大，而且众人眼中实现目标的方法也仅剩一条了。

　　不仅会议如此，科研基金也如此，而这就直接导致了计算机视觉研究“理论深度”变浅，研究方向单一。Paragios 接着写道，如果这只是因为近年来计算力和大数据崛起推动所致，那么这股热潮自会过去，计算机视觉也会遵循计算机图形的发展轨迹，从活动和学术研究的量上说，逐渐成为一门边缘学科。

　　如果不是的话，Paragios 表示——那么问题来了：计算机视觉的下一步发展将是什么？“你怎么让那些刚从学校出来，很有可能连统计学习、模式识别、欧氏几何、连续和离散优化都没听说过的的博士生提出新的想法？”

　　虽然事情不至于这么极端，但照这样发展下去，Paragios 写道，结果就只有两条：要么是大家走向共和，实现 David Marr 的假说——单一计算框架能解决所有视觉感知问题，当然这也是一项成就；但万一要是沿着深度学习走下去，最终却无法解决各种各样的计算机视觉问题……

　　Paragios 称自己是深度学习怀疑论者、接受者、倡导者中的后两种，但对前景还很迷茫。不过，他主张的研究多样化，的确值得深思。