Deep down the rabbit hole: CVPR 2015 and beyond_个人翻译版

最新推荐文章于 2016-10-11 11:50:13 发布

DuinoDu

最新推荐文章于 2016-10-11 11:50:13 发布

阅读量1.9k

点赞数

分类专栏：读文章文章标签： CVPR2015

读文章专栏收录该内容

17 篇文章 0 订阅

订阅专栏

原文链接（国内）

CVPR是著名的计算机视觉会议，被认为是计算机视觉研究的奥林匹克盛会。今年，它在我家的后花园举办---马萨诸塞州的剑桥，离我家不到一英里。我许多MIT的同事都参加了，如果Google在今年的CVPR上有很炫的表现，我一点都不惊讶。我从2004年开始参加CVPR至今，所有，我们来看看这个计算机视觉的国际盛会上，发生了什么有趣的事情。

Down the rabbit hole art by frostyshadows

什么都变了，什么也没有变。过去的学术，是顶尖的，代表着他们的大学，精心保护着在非工业性质的研究实验室里发生的伟大的事情。而现在，学术依旧是顶尖的，但是维护着他们的Google,Facebook,Amazon,和Company X的关系。并且，由于“需要发表文章”这种沉重的学术文化，在未来几年，大规模的学术界现象即将消失。CVPR才开了两周，Googlej就忙于他们的ConvNet art项目，向世界展示，如果你想做最好的深度学习研究，他们是世界上最好的地方。

一群博士和博士后组成的军队，无法和一帮软件工程师和学术科学家组成的队伍抗衡。在过去，学生拿到计算机视觉的phd之后，就会去干点别的（因为计算机视觉的工作机会很少，华尔街的工作又很诱人）。现在那些phd学生在大公司开起了实验室，狂热地钻进了视觉的研究。现在看来，似乎没有足够的深度研究的专家能填补这种深度的需求。

数据集过去是一件大事---请下载我的数据。数据集现在依然是件大事，但我们很遗憾的告诉你，你所在大学的计算资源无法达到标准。（但是在Company X我们有很多，所以加入我们吧，一起推动研究。）

如果你想逐篇查看每篇文章，我推荐Andrej Karpathy的online navigation tool for CVPR 2015 papers或者查看这个list: CVPR 2015 papers on the CV foundation website . Zoya Bylinskii，还有一个MIT的PHD搞的一个list: a list of interesting CVPR 2015 papers

卷积神经网络的革命：前训练网络

机器学习曾经是皇后，现在是国王了。机器学习曾经很浅，但现在的学习方法很深，以致与无法再一张ppt上完整放一张图表。研究生们曾经流传着一个关于Yann LeCun和他的学术主张的的一个笑话：机器学习会在将来某一天做特征工程的工作（feature engineering stage）。现在看来，如果你还坚持“手工特征提取”会在某天反败为胜的话，整个机器视觉社区会完全忽视你的存在。Yann LuCun给了一个陈述，冠以一个有趣的题目“深度学习到底怎么了？”。在CVPR上，CNN似乎无处不在。

以前在CVPR上发表一篇CNN的文章很难，现在如果你没有按照CNN方法，基本无法发CVPR的文章。“发现一个新问题？哦，你没有用基于CNN的方法？好吧，这就是为什么别人不鸟你。”

但并不是说，机器会取代视觉科学家。现在的视觉科学家更像一个机器学习的实战黑客。由于强大的CNN主旋律，理解并实现现有的视觉系统，就容易许多。我们在CVPR上看到的，本质上是旧问题（分割，运动）新解（使用CNN方法）。正如Samson Timoner在人工信息方法流行的时候指出的，整个社区都流行那种方法。现在是CNN时代。这并不仅是一种趋势，非CNN方法毫无回击之力。

视觉科学家还有很多工作要做，而且踏实正规的数学教育比以往显得更加重要。我们曾经用下降梯度训练，现在我们还在用下降梯度训练。我们过去喝Coffee，现在我们喝Caffe（一种深度学习的代码框架）。但在表象之下，仍然是数学。相关网页：Caffe Model Zoo where you can download lots of pretrained ConvNets

Deep down the rabbit hole

CVPR2015使人们想起了物理界的前牛顿时代。笛卡尔富有创造地教会我们在坐标空间思考物理时，许多聪明的科学家就能使用数学预测物体的运动。很显然，如果你用CNN的方法处理你的计算机视觉问题，你就可以打败任何用手工处理计算机视觉问题的人。我觉得，Yann LeCun(深度学习之父之一)是今天的笛卡尔，仅仅是因为他的开创性的工作，是正确的。他给出的CNN框架，更像是一个急需的坐标系-----我们虽然不知道目标在哪里，但我们现在知道如何构建前往目标的地图。

深度网络每个月都有更好的表现。但我仍然在等待牛顿的到来，使我们的生活更简单。我想要简单。但我并不悲观---在CNN空间总有一种骚动（除非你没有参加CVPR2015）.所以我坦率的说，CNN他妈的又起作用了。我只是想要深度学习里的F=ma。

计算机视觉的开源深度学习框架：Torch VS Caffe

CVPR2015在第一天以介绍一些很棒的软件作为开始。已经有一些稳定版本的深度学习软件，使我们的生活更简单。在CVPR，我们有Torch 和Caffe。我参加了Diy Deep Learning Caffe tutorial，房间很大，站着的都是想我这样会议前5分钟才到的懒鬼。Caffe比Torch要流行一些，但当谈及深度学习领域的大牛时，一些专家组会从Caffe迁移到Torch。

Caffe在伯克利开发，有一个充满人气的社区，和python一起用，在高校的学生中更为流行。伯克利的Trevor Darrell甚至在寻找一位博士后帮他搞Caffe。如果我年轻几岁，是一个刚开搞的Phd，我完全会去申请的。

不像追随python风格，Torch是基于Lua的。不像Matlab或者Python需要一个解释器，Lua提供了一个魔幻的控制台。Facebook的AI实验室和位于伦敦的Google深度大脑实验室，Torch都被重度使用。对于那些害怕Lua的人来说，如果你对python,javascript,matlab很熟悉，Lua也会简单许多。而如果你不喜欢手动修改协议缓冲文件的话，那就离开Torch吧。

有一点很明确，深度学习的未来，会使用像Caffe或者Torch的软件包，而不是OpenCV或者Matlab。当你分享用OpenCV做的工作时，你最终仅仅是分享了源码。但是如果使用深度学习工具，你是在分享前训练网络。你不再纠结把20个小算法组合成你的计算机视觉管道，你只需要决定，你要选择哪种神经网络架构。如果你有GPUs和海量数据，你可以做端到端的训练。如果你的数据集稍小一点，你可以微调前几层的网络。如果你担心你的手会脏，你甚至可以再最后一层的顶部训练一个线性分类器-----这就足以打败计算机视觉近20年所有欢呼雀跃的方法，如SIFT，HOG，GIST。

相关文章：Torch vs Theano on fastml.com

CVPR2015上CNN的使用方式让我感觉，我们离大突破，很近了。但在我们淘到金子之前，CNN仍然像一个Calculus of Shadows，仅仅是希望更大，更深，更有意义。我觉得，研究CNN可视化算法的躁动暗示着即使是网络架构本身也并不确定背后发生了什么。

你脑子里的视频游戏引擎：通向机器智能的另一条路

Josh Tenenbaum在CVPR2015的最后一天，做了一个受邀的演讲，题目是“你脑子里的视频游戏引擎”。你可以在这个链接读到他的想法的概要。虽然他的演讲按照CVPR的标准来说，属于非传统的，但这才是典型的Tenenbaum.在他的世界里，没有不能打破的基准，没有曲线去拟合并跟随。如果你允许我把LeCun比作现代的笛卡尔，那他就是当代的亚里士多德。正如肖健雄介绍他是所说的，他也许是对的。他是你能找到的最有智慧的演讲者之一。他每秒说100个词，在你听他说的时候，你不自觉的感到脑子变大了。

Josh的研究课题之一是，走出基于图像的识别的阴影。他的工作总是关于构建对于世界的精神模型，他的工作可以真的被认为是分析-合成。他的模型里有一点像视频游戏引擎，并且他展示了许多类似的对于人来说很容易的推断例子，但对于数据驱动的CNN来说，就没辙了。一点也不奇怪的是，他的学生这个夏天工作在Google的DeepMind部门。

几年前，Probabilistic Graphicak Models(图理论和概率方法的联姻)开始流行起来。Josh向我们展示了概率编程。然而我们并没有看到这些方法在计算机视觉的研究领域大放异彩，那你就当开阔眼界吧。他援引了一篇最近的自然杂志的文章，这篇文章来自另一个权威的机器智能研究组，这个研究区会让领导流行的人激动一阵子。

为了在实践中了解Josh教授所做的工作，可以看看这篇文章。祝贺Tejas，这篇文章的一作，MIT的学生，获得了最佳论文优秀奖金。Google DeepMind，你即将拥有一个有趣的暑假。

深度场景CNN的目标检测符浮现出来

在Scene Understanding Workshop，有许多很赞的展示，还有一个演讲，关于一个新的大数据集，对训练场景&目标过程中发生的事情做了彻底的研究。

来自MIT的Antonio Torralba做了一个关于场景数据库（Places Database）的演讲，并且对训练过程（训练以目标为中心的数据集，如ImageNet；和以场景为中心的数据集，如Mit Places）中学到的东西做了深度分析，你可以查看"Object Detectors Emerge"ppt或者他们ArXiv Paper来了解更多。Bolei Zhou也做了很多很赞的工作。

在CVPR的串音：ArXiv出版狂潮 & 百度惨败

从长远来看，迅速推动预印本到ArXiv.org的趋势，对于学术和工业研究都是极好的。当你有一群专家在一起，以非常快的速度探索ideas时，等到6个月后的下次会议的意义就不大了。唯一的负面影响是，这使得CVPR的文章看起来很旧。好像每个人已经非常仔细的阅读了ArXiv上的好东西。......

百度作弊丑闻对于仅仅浏览标题的行外人也许是一个大新闻。但其实对测试集做过拟合，这在计算机视觉领域，一点也不奇怪。学生常常用测试集多次评估他们的算法，这样的后果是，没有人是完美的。当成为No.1很重要时，你的竞争就变得naughty了。要意识到，开创性研究和追赶小数点之间的区别。所以，我们一笑了之吧。让我们找到精英中的精英，鼓励真正棒的研究，停止追求百分数。真实情况是，很多顶尖性能的方法，大多是类似的。

结论

CVPR仍然在规范的成长。我们现在有Phd学生，初创公司，教授，招聘人员，大公司，甚至本科生也参与进来。CVPR会成为新的SIGGRAPH(计算机绘图专业组)吗？

CNN在今年大放异彩，但是如果我们希望CNN不仅仅是阴影的微积分（calculus of shadows）呢？仍然有很多工作要做。在午夜讨论中，Geoff Hinton的胶囊仍在耳边回荡，“我想用胶囊组来代替非结构化的层，因为胶囊更像我们大脑里的皮质列。”---Geoff Hinton during his Reddit AMA。许多人也谈论到非监督的CNN训练。我预测，明年的CVPR的焦点会放在从没有标记的视屏中学习大型CNN。

更重要的是，当深度学习的泰坦巨神提到了他们最喜欢的方法时，我只是期待有好的研究能跟上。快乐计算，并且记住，不要停止学习。