张长水：机器学习与图像识别

最新推荐文章于 2024-06-22 07:19:51 发布

mustar_2017

最新推荐文章于 2024-06-22 07:19:51 发布

阅读量2.7w

点赞数 8

http://www.cbdio.com/BigData/2015-12/23/content_4371155.htm

本讲座选自清华大学自动化系张长水老师于2015年11月26日在 RONG v2.0---图形图像处理与大数据技术论坛上所做的题为《机器学习与图像识别》的演讲。

　　张长水：我的题目叫《机器学习和图像识别》。我主要在做机器学习，不知道在座的听众是否会对机器学习感兴趣。

　　什么叫机器学习呢？这里举两个例子，一个是做分类，一个是做回归。分类是一个基本问题。例如在右图中，当我们知道有不同颜色表示的两类物体，在向量空间中，我们有一种什么样的算法能够把这两类物体分开，并且分得更好。

　　机器学习关心什么事呢？机器学习关心的怎么样建模。以回归问题为例，我们用什么样的回归模型，我们的目标函数应该是什么样，我们怎么去估计这个模型的参数，以及使用的估计方法和该方法的性能是什么。估计的性能可能会和数据量有关、和维数有关，其收敛速度怎么样，和最优解是什么关系？刚才徐葳老师谈到了我们在实际建模中的困难，包括不同人标注的果蝇基因数据能不能共享。类似的问题在机器学习领域有相关的研究，我们把这样的任务看成是知识的传递，或者是模型的传递，或者是参数的传递。我们把它当做机器学习的问题，这个时候会有数据的共享、模型的共享、参数的共享，当我们的共享方式不一样的时候，建模也会不一样，优化方法也会不一样，得到性能也会不一样。所以机器学习是一个特别宽泛和基础性的研究方向，应用领域广泛。

　　泛泛来说，机器学习是一个比较基础的研究，模式识别、数据挖掘中的很多方法都是来自于机器学习，模式识别和数据挖掘可以用在语言、文字、图像和视频识别中。这里列的都是大家常见的一些应用，其实还包括生物、医学、材料科学等其他学科方面的应用。机器学习是一个基础的研究工具，或者说是理论和方法。所以在大数据时代，机器学习是核心方法之一。这样一个方法在任何一个大的应用领域都有可能有发挥它的用武之地。

　　既然今天的话题是图像图形，我们就说一下图像图形识别方面的事。在视觉领域做图象识别，物体的识别研究已经有几十年历史了，但是直到几年以前，有影响的图像识别产品不多，一个是OCR，一个是指纹，还有一个就是人脸检测。

　　人脸检测是01年的事，OCR和指纹是九几年的事。更广泛的应用研究从1970年代就有了。当时研究比较多的是人脸检测和识别、数字、车的识别。

　　后来从2001、2002年开始做更广泛的图象识别研究。那时研究人员就在想有没有一个统一的方法能够识别各种各样的物体。比如说我们预计需要识别的物体种类是几万类。当时觉得机器学习发展了那么多年，已经有了一些很好的方法，能不能用这些方法使得我们在图像识别上有更大的发展。之后有些人做了连续十年的工作都在目标识别、图象识别上。

　　真正的突破是在2012年深度学习的引入。之前在一个ImageNet物体识别竞赛。允许对每一张图像允许算法给出五个候选类别，只要这前五名类别里包含了这个物体的真实类别就算该图像识别正确了。2012年前，这个识别率慢慢在涨，突然这一年有了一个大的飞跃，这就是Hilton的团队用了深度学习得到的结果。

　　但是并不意味着图像识别的问题就解决了。其实图像识别率还很低，很多问题没有解决，还有相当多的困难。现在因为深度学习的效果好，所以做图像识别的很多，特别是工业界非常热闹，但是这里面的技术问题非常多。

　　我在自动化系，我的实验室叫大眼睛，这是我实验室的首页，欢迎大家访问，给我们提一些建议。过去十几年我们一直在做机器学习方面的工作，涉及机器学习中相当多的研究问课题和方向。因为做机器学习必须要考虑一些应用，所以我们做了一些应用研究，例如图像方面的应用。

　　我们做了一个比较实用的课题:交通标识识别。我们是在大数据和深度学习的大背景下做这件事。国家自然科学基金委有一个项目是无人驾驶车。这需要识别场景中的交通标识。我们搜集了很多数据去做，能够达到单张图片识别率99.5%，如果把前后帧合在一起准确率会更高。我们在无人驾驶车上测试，比赛的时候还没有识别错过。

　　这是无人驾驶车现场的情况，左边的标识和右边的标识都被框出来了，并且被识别了出来。

　　在交通问题上还有很多要识别的东西，车开在马路上需要知道要沿着哪条路走，我们也做了路面标识的识别，性能也是差不多的，也是这样的一个结果。

我们对这张图进行识别，下面有识别结果。有了这样一个分析以后，车就知道应该往哪走，是不是违反交通规则。

　　我们还做了手的识别，这张图上有一个手，我们知道是张开的手，我们以这个技术为核心做成了一个APP，这个APP有三个版本，一个是iPad上叫iFinger，iPhone上还有一个iFinger For Phone。特别简单的一个游戏，左边给你一个手的姿势，你的视频就在中间显示，一旦你做对了，这一关就PASS。谁来判断对不对？就是程序。这个程序不断的检测手并且识别手的姿势。有四五种姿势还是相当难做的。我们试过，只有一个人，我们管他叫超级手指王，他能做很多复杂动作，其他人都很难做到。

　　我们实验室正在做的一个工作叫做Image Captions。就是给一张图像，算法用文字描述它。例如：对第二张图的描述是在火车站旁边的轨道上有一辆火车。这个工作不仅仅是识别物体，更要考虑物体之间的关系，我们去描述这个关系，而我们希望通过文字描述。我们训练的时候只是给一些图像，和对应的描述。

　　看我们生成的这个结果，文字描述是：一只棕色的牛站在草地上。算法给这个描述的时候，知道哪个词大概会聚焦在什么地方。就象人观察一张图像时会有注意力，词的生成对应注意力的改变。

　　当我们有了很多图像的时候，算法开始学习。它学到了什么?我们把一些名词拿出来black cat，他对应的图像块是这样的，看起来它还是学到了一些概念。比如说一个动词，Filled with，他表示的是这样的图像。

　　描述动词，飞翔:flying，还有:laying，还有标识，红色。看起来它学习到了一些东西。从这样的结果来看应该是一件有意思的事，比目前做的工作又往前迈了一步。

　　因为这次会议的主题是大数据，所以我再说几个大数据味道更浓一点的例子。这些例子不是我们做的，是当前计算机视觉领域里的几个工作。

　　一个是超分辨率，超分辨率想做这样的事情：给一张特别小的图像，因为很多种原因想把它放大，你一拉伸，就出现了一个马赛克。大家觉得不好看，所以我们希望把细节填充进来，这就是用不同方法填充的结果，你会觉得这个不太好，这个更好一点。做这个事可以在大数据的背景下有一个新的思路。

　　思路是这样的。我们在一些特殊的情况下，比如说天安门广场，或者巴黎圣母院、凯旋门，很多人都去拍照晒照片。当我们有了很多天安门的图像后，利用图像三维重构算法可以把整个天安门的三维结构构建出来，然后再把纹理贴上去。假如，你某一天去天安门广场拍一张照片，你当时的相机很糟糕，拍了一个模糊不清的照片。你去上传到网上，算法可以帮助你干这样一件事，把你这张图片和重构出来的天安门的模型做一个对应，然后把不清楚的细节填充回来。

　　在今年CVPR2015年就有一个这样的工作。

　　6天重建全世界。其基本的思路是差不多的。有一个非常大的图像数据库，就可以把很多的场景构建出来。文章说他们构建了卢浮宫、自由女神、凯旋门、罗马斗兽场等，为什么是六天呢？因为机算了5点七几天。

　　除了目标识别以外，视觉研究中还有另外一个问题叫做图像解析，给了一张图片之后，算法给出这张图片每一部分代表的含义，这是天空、这是汽车、这是道路，这对于我们的理解非常有帮助。

　　怎么完成这个任务呢？历史上有过各种各样的研究方法，我介绍这个工作是CVPR2009年的工作，当时获得了最佳学生论文。这个工作也是大数据的思路。作者说我们现在在互联网时代，我们有很好的搜索引擎，比如说百度、谷歌、必应，除了这些以外我们还有互联网上大量的人，他们可以给我们标注很多图像，告诉我们这个是车，这个是楼房。获得一张图像以后，首先对大量数据库检索，检索出类似的图像，用一种视觉的方法去匹配，匹配以后知道这是车，这儿是楼房。