马毅与来自高维度的恩赐

最新推荐文章于 2021-06-26 21:56:05 发布

机器学习与遥感图像智能信息处理实验室

最新推荐文章于 2021-06-26 21:56:05 发布

阅读量1.5k

点赞数

原文地址：马毅与来自高维度的恩赐 作者：微软亚洲研究院

文：Rob Knies

翻译：曹璐倩

校对：孙凌

马毅研究员

我们生活在一个数据膨胀的世界。对于今天的科学家来说，数据泛滥不能不失为一个难题。一方面，有丰富的信息可供分析利用。而另一方面，如此丰富的数据带来了学习与研究庞大数据量的成本。

有时，这的确可能成为非常沉重的负担。但在马毅的研究中，这巨量的数据却成为一个“利润丰厚”的研究契机。

马毅是微软亚洲研究院视觉计算组的主任研究员。他的研究兴趣在于视觉认知背后的数学原理以及对视觉数据的理解。基于图像的物体识别技术是计算机视觉的核心挑战之一，其中，人脸识别可能是最具吸引力的。马毅和他的同事们指出，一个非常重要却又常被忽视的方法 -- 相关的关键数学概念与有效的软件应用的结合，将引领我们到达人脸识别技术获得巨大进展的新纪元。

近几个月来，他设计出了一个在人脸识别领域产生重大影响的算法。2009年4月到10月，在他从伊利诺大学香槟分校电子与计算机工程系副教授休假而加入微软亚洲研究院的几个月后，马毅和他的团队在众人的质疑声中，第一次证明：电脑人脸识别技术可以在极具挑战性的情况下（如在经历强光或部分遮挡），远远超过人类视觉。

他把这一切归功于“来自高维度的恩赐”。

“在视觉计算领域”，马毅说，“你需要经常与高维度的照片和视频打交道。幸运的是，如果数据的维度足够高，并且有正确的计算工具，你就可以提取并利用数据中非常丰富的信息。这样就为你提供一个机会，让你得以有效的解决一些世界上最难的问题。这就是我说的‘来自高维度的恩赐。”

在一篇发表于2009年8月Communications of the ACM特刊 上的名为《人脸识别的突破》的文章中，明尼苏达（Minnesota）大学电子与计算机工程专业大学教授Guillermo Sapiro特别向马毅和他的研究团队的卓越贡献表示了感谢。

“马毅与其团队的工作，代表了处理人脸识别相关问题的新途径，”，Sapiro说“看到这种崭新的做法，我们都很兴奋。”

还不仅如此。

“在我的生命中，最近三年是让我最为激动的”，马毅，这位在1999年在视觉计算国际会议最佳论文获得马尔奖（Marr Prize）的得主，笑着说，“对于像我这样从事研究的人，这是一生中梦寐以求的时刻。”

现年三十七岁的马毅是四川人，他的研究领域是高维数据聚合与分类、压缩为基础的图像分割、基于稀疏表示的人脸识别、与高维度信号与矩阵的纠错。

马毅在伊利诺大学香槟分校的个人网页上说，“我主要的研究兴趣是找到最适当的数学原则和方法，来辅助分析理解诸如图片和视频的高维度数据，以便于机器和人做出更智能的决策。”

这就是他关于人脸识别的贡献, 利用“稀疏表示（sparse representation）”的分析原理和算法工具，来引领一个能够处理损毁和遮挡的全新的、足够鲁棒的人脸识别方法。并且，所达到的性能不仅远远超过对于计算机视觉的期望，更加超过人类本身的能力所及。

传统上，用计算机进行人脸识别是基于局部区域的特征例如眼睛、鼻子的形状，或者嘴巴宽度等。但是马毅和他的同事证明，一个随机提取的特征点集——一个包含了几百个点的稀疏表示——可以提供足量的信息来确定一幅图像在一个图像集中所对应的对象。这个方法的关键是收集足够的数据，来获得高精确度的识别。

“一切都是新的”

“通过学习这些高维信号，如图片和视频”，他解释道：“人们开始发现原来还有很多全新的现象是他们以前全然不知的。这是非常引人深思的。这些全新的数学现象，是我们从来没关注或了解过的。然而，一旦我们正确地理解并利用它们，我们就能做出从前认为不可思议的事情。”

这些不可思议的事情包括，正确识别戴着墨镜或围巾的人脸，或是一些已经损毁的不成样子的照片。

“这开拓了各种各样的新的机遇与可能”，马毅说道。

这进而激起了美国国家科学基金会对这项工作的兴趣，他们资助了一个由马毅和斯坦福大学Emmanuel Candes教授负责的项目——“低秩矩阵恢复和建模的理论和实践”；同时，2009年，在马毅进行技术演示后，美国国土安全部也表示了兴趣。他的算法的精确度，为视频和静态影像注释、广告，以及监视和识别公共场所的人流等方面带来进步的希望。

这项工作也在研究界掀起潮流，激励大家建立一种行之有效的方法。

普林斯顿大学、加州大学洛杉矶分校等学府。每个人都把目光聚集在这里，因为这门学科才刚刚兴起。我们正在利用这个强大的工具，解决一些世界上最困难的问题。”

“这些算法的应用开始迅速流行。信号处理、成像、医学成像、地质学、生物信息学、编码理论、信息论、控制系统……它几乎已经扩散到每一个工程学科与领域。”

近期人脸识别技术的进步，可追溯到二战后的一些俄国、美国数学家在高维数学领域的突破。问题在于，当时并没有充足的数据来进行验证与实践。今天，通过庞大的高维数据和高性能的计算机，这些工作可以应用于现实的情景。

马毅在加州大学伯克利分校拿到计算机视觉博士学位，多年来从事图像分割，这自然而然地引导他想到通过多个低维的线性模型进行分析并由此描述复杂的高维数据。

数学和人脸识别

“我这些年一直都在研究这类模型背后的数学原理”，他说。“我开始出于兴趣研究这个新的数学分支。而人脸图像是最易获得的高维数据用于验证这些结果。这就是数学工具与人脸识别最初结合的原因。”

“而它的性能就像魔术一样，这一点我们一直都无法理解。现存的数学理论无法解释它。这引起了我们很大的兴趣。事实证明这个方法很有效，甚至比目前理论预测的还要好。这让我们越发钻研隐藏在其背后的数学原理。”

实际上，马毅说，可能需要4至5年才能从理论研究中得到与现在实际结果相印证的结果。

他研究团队中的学生，包括来自伊利诺斯大学香槟分校的Andrew Wagner、Arvind Ganesh与周子寒，美国加州大学伯克利分校电气工程和计算机科学系的研究工程师杨扬，以及马毅在伊利诺斯大学香槟分校带的博士生，现在与他一同在微软亚洲研究院工作的研究员John Wright，是第一批尝试该新工具的人。2009年，Wright因成功的将马毅的想法用于人脸识别，而获得了3万美元的Lemelson-Illinois学生发明奖金。。

“我们之所以能在这项工作中领先世界”，马毅说，“是因为我们独特的应用领域——计算机视觉，这有助于我们发现别人无法预见的、更有趣的数学问题。这使得我们处在一个绝佳的位置。”

马毅的方法的特点之一是可应用于各个领域，而最突出的结果是在人脸识别领域的应用尝试。

“你想要用数据库中尽量少的图片来解释你从未见过的新图片”，他解释说“如果计算机可以找到它，那么被选出的用以表示新图片的、数量尽可能少的图片，就可以为你提供所有所需的信息。”

如果图像的分辨率足够大，那么比如眼睛、鼻子和嘴之类的要素的大小与形状，就不那么重要了。相反，面部图像的整体占据了主导位置。这种方法带来了显著的成效。即使在面部80%被遮挡，例如眼睛、鼻子和嘴被隐藏的情况下，这个新的算法可以找出对应的图像。

“这并不意味着其余的像素是无用的”，马毅说。“它们也蕴含了丰富的信息。如果你有这么多的像素，并且可以正确的利用它们的信息，它们中的一少部分就足以告诉你图像中的人是谁。”

极其准确的效果

在一个测试中，从一个叫AR的人脸数据库中选出一个包含50名男性和50名女性受试者的集合，这个新算法对男性受试者达到百分之百准确，对女性受试者则有百分之九十五的精确度，而这些受试者当时是戴了墨镜的！

“乍看起来很难想象”，马毅说。“开始的时候，我们给一个国际大会提交了一篇论文，但被拒绝了，因为审稿人简直不敢相信。”

该方法的惊人成功，开启了对许多新领域的探索——领域之广以至于研究人员无法掌握他们的全部。

“当我在伯克利大学求学的时候就养成了一个习惯”，马毅说：“我和导师会试着一直保持一个有待解决的问题清单。现在我和我的学生也同样这样做。我和John Wright曾经保持了一个很好的问题清单，但最近我们不这样做了，因为可以列的问题太多了。我们看到了一个非常广阔的前景。”

要理解这个新方法所带来的所有潜力和机会，他们也需要帮助。

“我们确实有个优先次序列表”，马毅说。“我们认为近几年我们可以得到一些拓手可得的成果。但是事情发展的速度和广度超出我们的预计。本质上，我们是工程师而不是数学家。所以，想要成功，我们需要许多专业数学家和其他计算学家的帮助。”

“我们的下一个目标，是展示人脸识别技术。你可以得到能够在相当广泛的、现实的工作条件下运行的，可扩展的、速度快到足以提供近乎实时的鲁棒的面部识别系统。”

当然，挑战依然存在。有着足够的训练并获得了可扩展的大型数据库后，在不寻常的姿态和未对准的情况下，人脸识别还存在一些问题。但是，马毅认为这些困难是可以通过稀疏表示来加以解决的。

“算法中新的挑战”

“在我们能够使用这个核心方法，去建立一个在不同情况下都能够可靠运行的识别系统，还需要考虑许许多多的关于人脸识别技术实用性和其它方面的问题。”他说，“还有很多其它工程运算的难题，都在等着我们去解决。”

“但是我们还不确定我们已经找到了这个拼图中的所有拼块。我们保持谨慎的乐观态度，同时我们也必须非常细心。因为对该方法为什么如此有效，我们还没有完整彻底的理解。”

这种谨慎的态度是可以理解的，但是，在这项技术高歌猛进的时期，保持如此冷静的头脑绝非易事。当马毅在深思这项工作的潜力时，他变得非常乐观积极。

“三维重建、大规模图像分割……”，他说，“人们现在甚至可以实时完成这些工作。”

他立刻沉浸在幻想里。

“今天，视觉是人工智能的一个颈瓶”，马毅说。“我们可以做出完美的机器人——他们可以跳舞、唱歌、跳跃——但是他们却看不见东西，他们不能与人们互动，他们不能识别其他事物。视觉在速度和精确度方面还达不到许多应用的要求。我们的这些工作将帮助那些应用得以实现。”

然而，他马上强调，这种持续的发展是很难预测的。

他沉思片刻，说道：“我们可能会碰壁。目前没有人清楚将会发生什么事情。这就是为什么它令人兴奋，令人紧张，也令人如沐春风。可能下个月，也可能明年，人们会发现利用这些工具来解决另外一些问题的方法。”

“在这个领域里的每一个人都开始意识到几年前的我们是多么的幼稚。之前，我们以为我们想到和尝试了一切，我们对一切都了如指掌，我们是那么的聪明。但是现在，我们知道实际情况可能正好相反。”

英文原文：Yi Ma and the Blessing of Dimensionality

---------------------------------------------------------------------------------------------------------------------------

欢迎关注微软亚洲研究院微博：http://t.sina.com.cn/msra

马毅简介：

马毅，微软亚洲研究院视觉计算组高级研究员，美国伊利诺伊大学香槟分校电气与计算机工程系历史上最年轻的副教授。马毅1995年获清华大学自动化系与数学系双学位，后赴美国加利佛尼亚大学伯克利分校求学，毕业后在美国伊利诺伊大学香槟分校任教。