《计算机视觉度量深入解析》目录

bb9e208d3194755885a3df5305b7d35767455cf2

版权
计算机视觉度量深入解析
•　著　　　　[美]Scott Krig

　译　　　　刘波靳小波于俊伟

　责任编辑　王峰松

•　人民邮电出版社出版发行　　北京市丰台区成寿寺路11号

　邮编　100164 　电子邮件　315@ptpress.com.cn

　网址　http://www.ptpress.com.cn

•　读者服务热线：(010)81055410

　反盗版热线：(010)81055315

版权声明
计算机视觉度量深入解析
Computer Vision Metrics: Survey, Taxonomy, and Analysis

By Scott Krig, ISBN: 978-1-4302-5929-9

Original English language edition published by Apress Media.

本书中文简体字版由Apress Media授权人民邮电出版社独家出版。未经出版者书面许可，不得以任何方式复制本书的内容。

内容提要
计算机视觉度量深入解析
计算机视觉作为人工智能的一个重要分支，目前已经广泛应用于智能驾驶、机器人、生物识别等众多领域。本书对计算机视觉特征描述子的性质进行了分类，并给出了计算机视觉处理流程的一般性框架。同时，本书也对目前较新的计算机视觉技术进行了介绍，这些技术包括3D深度感知方法、稀疏编码、卷积神经网络、深度学习等。

本书针对的读者为从事计算机视觉的工程技术人员、研究人员等。读者可根据不同的应用，利用本书提供的知识来选择合适的特征描述子。本书将按各种鲁棒性属性来理解各类计算机视觉的特征描述子，读者在阅读本书时最好具备一定的图像处理的基础知识。

作者简介
计算机视觉度量深入解析

302d980a24ea526d46fd3c0dec5187cb9fb23459

Scott Krig是计算机成像学、计算机视觉和图形可视化方面的先驱。他在1988年成立了Krig Research公司(krigresearch.com)，该公司提供了世界上第一个基于高性能工程工作站、超级计算机和专有成像硬件的成像和视觉系统，并为来自全球25个国家的客户提供服务。Scott为全球客户提供成像和视觉方面的解决方案，并且和多个行业，包括航空、军事、情报部门、执法机关、政府研究部门、学术组织等密切合作过。

近年来，Scott主要为大型公司和服务于商业市场的初创公司提供服务，帮助它们解决计算机视觉、图形成像、图像学、可视化、机器人、过程控制、工业自动化、计算机安全、密码学，以及成像学和机器视觉在电子消费品（如PC机、笔记本电脑、手机和平板电脑）方面的应用问题。最近，Scott在将深度感知和计算机视觉方法用于嵌入式系统和移动平台的相关领域为英特尔公司提供技术性指导。

Scott也是全球范围的许多专利应用的发明人，其涉及的范围包括嵌入式系统、成像学、计算机视觉、DRM和计算机安全，他也曾在斯坦福大学做过研究。

同时，Scott也很喜欢木吉他设计和弦乐器制作，特别是12弦木吉他，还喜欢为木吉他作曲并演奏。

译者简介
计算机视觉度量深入解析
1．刘波，博士，重庆工商大学计算机科学与信息工程学院教师，主要从事机器学习理论、计算机视觉和最优化技术研究，同时爱好Hadoop和Spark平台上的大数据分析，也对Linux平台的编程和Oracle数据库感兴趣。

2．靳小波，博士，副教授，硕士生导师，2009年7月从中国科学院自动化研究所模式识别国家重点实验室博士毕业。2010年5月入河南工业大学信息科学与工程学院参加工作至今。近年来，在国际顶级杂志和顶级会议上发表论文多篇（其中，Pattern Recognition一篇，Neurocomputing一篇，ICPR会议3篇），申请专利一项。多次参与互联网作弊检测挑战赛获第一名，曾主持青年科学基金一项（61103138），并参与两项青年科学基金。开发了一款开源的Java机器学习库JMLP。主要研究兴趣为机器学习、互联网挖掘和计算机视觉。

3．于俊伟，博士，副教授，2009年12月从中国科学院自动化所毕业，随后在河南工业大学信息科学与工程学院工作至今，在国内外学术期刊及国际会议上发表论文10余篇，当前主持一项青年科学基金（61300123），主要从事计算机视觉、模式识别和智能信息处理等方向的研究。

致谢
计算机视觉度量深入解析
若没有与ITSEEZ的Vadim Pizarevsky进行早期技术反馈、交流和对粗糙原始数据的观察，本书内容就不会有这样全面。Vadim也是成立OpenCV的主要力量，他具有多个计算机视觉应用领域的广阔、丰富的专业知识。感谢Vadim。

还要特别感谢Intel出版社的Stuart Douglas约我写作本书，是他将我引荐给Apress出版社的编辑。此外，特别感谢与本书出版相关的主要编辑，包括Melissa Maldonado、MarkPowers、Jeffrey Pepper、Steve Weiss、RobertHutchinson、James Markham和Carole Berglie，他们的编辑处理为本书增色不少。

感谢我的妻子Janie，也感谢我的家庭和父母，他们是我生命的重要部分。

前言
计算机视觉度量深入解析
本书从特征描述的度量出发，或者说从如何描述、计算和设计宏特征（macro-features）和微特征（micro-features）（它们用于构造图像中的更大对象）的角度来着眼于一个细分领域，即计算机视觉度量。它关注的是视觉流程中像素层面的内容，而不是后端的训练、分类、机器学习和匹配等阶段的内容。本书可以用作计算机视觉方面的参考书、高级课程或者自学教材，它针对那些已经了解计算机视觉和图像处理的读者。但这个领域的新手，也可通过本书丰富的插图、汇总表，从较高层面来获取一些重要概念。

我将计算机视觉看作是一个数学的艺术形式，而它的研究者和实践者们就是艺术家。因此，本书更像是一个艺术画廊，而不是一本技术或科学的专著。它提供了一些观测现象；给出了令人感兴趣的问题；并提出了一套视觉分类方法，通过该方式勾画了该领域的一幅蓝图。本书试图绘制一幅以特征度量为中心的地图，这幅图可能不那么准确、清晰，但希望能抛砖引玉，启发大家以自己的方式丰富其细节，以便比我一个人甚至几个人完成得更好。我要是发现市面上有某本类似的书涵盖了这个主题的这一特定细分领域，我就不会承担写作这本书的任务了。

本书不包含什么
读者在本书中不会找到如何实现计算机视觉的例子和相应的源代码、讨论指南、性能分析以及一些捷径，因为这些可以通过阅读广受好评的OpenCV库资源（http://opencv.org）得到，它含有大量的优秀图书、在线资源、源代码示例和几个博客。对着手实际应用的开发者而言，没有比OpenCV更合适的了。因此，本书会避开与OpenCV社区和其他地方重复的“如何做”的材料，转而提供与之对应的讨论，包括综述、方法分类学和分析。另外，本书不会试图对包含计算机视觉的所有主题进行讨论和性能分析，因为其他资料非常全面地提供了这方面的材料，例如，由于本书关注的是特征度量，因而机器学习、训练和分类方法在这里只是简单地介绍一下。

总而言之，本书主要讨论特征度量，展示开发者使用的是“什么”方法，同时详细观察和分析这些方法“为什么”起作用，侧重通过观察提出问题，而不是给出过多的答案。我非常喜欢这些问题，因为好的问题能激起好的回答，每个回答常常孕育更多好的问题。

本书的目的是在综述层面进行分类和分析，所以没有单个用例的详细例子，也没有涉及方法之间的比较。若想获取更多细节，可参考本书后面的540多个参考文献。另外，附录C提供了一些“如何做”和“动手实践”的资源。少量与本书有关的简单源代码可以在线获取。附录A包含了兴趣点检测子的评估，在第7章会引入这些合成的兴趣点字母。附录D包含扩展的SDM度量（在第3章会介绍）。

本书包含什么
第1章是开场白，它描述了二维图像的构造和三维深度成像。第2章进一步介绍智能图像预处理技术，这些技术会被用来增强特征的描述。第3章到第6章构成了特征描述的核心部分，特别强调了局部特征。第3章包含了全局和区域度量，第4章介绍了特征描述子的概念，第5章介绍了视觉分类，第6章包含了局部特征描述子。第7章引入了基准数据，第8章从工程的角度讨论了假设视觉流程和假设优化过程，并给出了一系列的练习题目，由此把各种视觉概念综合在一起，与实际的系统发生关联（第8章的练习题目用于实现和改进这些假设的例子）。第7章研究一系列合成的兴趣点字母，并用10个常用的描述子与这些字母做对比，其结果可在附录A中找到。在图像处理和计算机视觉中，很难对所有的主题做一个清晰的划分，因此各章之间存在重叠。在实际中也会这样混合使用，因此，在第5章的视觉分类会出现重叠，并且创新总是在以出人意料的新方式使用旧方法的过程中形成的。但分类学是一个起点，有助于阐述清楚本书的结构。

因此，本书的主要目标是研究和理解特征描述方法的使用范围，而不是判定方法的优劣。本书还有一个目的，就是通过展示一些发展历程来介绍为什么要研究这种方法，探讨它的不变性和性能分别是什么，但不会对所介绍的内容进行评价，这会留待其他研究者来做。因为每种方法如何实现决定了其性能和精度，而每种方法使用基准数据测试的是什么则表明了其他内容。如果我们能够从其他人的研究工作中获得好的想法，这就是他们研究工作很成功的一个标志。

范围
为确保全书的简洁，我对一些与计算机视觉本身关系不大的主题未做深入探讨；这种方式有点与众不同，因为讨论计算机视觉一般会涉及广泛的议题。具体来说，这里讨论的主题不包含统计机器学习、分类和训练、特征数据库的构造和优化，以及搜索和排序。本书讨论了距离函数，因为它与特征度量之间有直接关系（本书将来的某个版本可能会涵盖与计算机视觉相关的另一个领域——统计机器学习，但不是现在）。

术语说明
有时当描述类似的概念时，文献上的术语并不一致。因此本书采用了一些各独立研究机构未做标准化的术语。实际上，这里引入了一些新的非标准术语，也许是因为本书作者没有意识到有更好的术语存在（也许这里引入的一些术语在将来会变成标准术语）。术语的不一致在与数学（比如聚类、回归、分组距离、误差最小化）和计算机视觉（关键点、兴趣点、锚点等）相关的主题方面表现得最为明显。由于人们学到的太多概念都是基于术语，因而作者也认识到改变这些术语可能会有些勉强。我想起来一位叫Homer Mead的朋友，他在波音公司任月球车和预警机雷达方面的首席工程师，他就下意识地用旧词condenser而不用新词capacitor（两者都表示电容器）。

作者的灵感有几个来源，主要是有开疆拓土的机遇。任何新领域的疆界在扩展时，总会遇到某种程度上的界限不明、缺少结构和缺乏组织的问题，所以在这一广阔的领域，探索的机遇让人无法抗拒：确定这门知识的结构和路径，让他人沿着这条路找寻新的研究领域，设置更明确的路标并将知识之路扩展得更远。

本书的灵感也来自于多年来很多研究人员之间的对话。具体从哪里开始的呢？它开始于20世纪80年代初的波音公司，当时我还在上大学。我在高级发展研究实验室（Advanced Development Research）工作时接触到了计算机图形学，其中航天飞机的第一个计算机三维渲染是以光栅的形式出现的。在当时，主要是使用矢量图机器，如Evans & Sutherland图形系统，最后，实验室添加了BARCO帧缓冲设备，Jeff Lane和他的研究组以及Loren Carpenter，从图形学模型发展了阴影图的高级光栅计算机渲染。实验室发明了几个方法，包括分形学（Fractals）、NURBS和A-buffer技术，刚开始计算机图形学涉及的数学知识，如双三次样条（bi-cubic patches）和双五次样条（bi-quintic patches）让我望而却步。但是随后我被BARCO帧缓冲里面的单像素深深地吸引，因为它们看起来非常直观和明显，一次只处理一个像素、一行或一帧。最初我研究成像学和计算机视觉，而不是所有的计算机图形学以及与之有关的数学。然而，事实证明，计算机视觉和图像处理的数学更加变化多样，无论怎样，至少和前者（计算机图像学及其相关的数学）一样复杂。从那以后，我在计算机图像学上也花费了相当多的时间。到20世纪80年代中期，我的老板Don Snow先是与人合作成立了太平洋西部系统（Pacific Western Systems）公司，并成为负责研究工作的副总裁，后来去了应用精度（Applied Precision）公司，他让我分析用于模式识别的View-PRB固定功能硬件单元，主要将它用在自动晶圆（wafer）探测中（以防我们需要自己构造一个类似它的东西）以便定位晶片上的模式和调校探测仪。它使用相关性进行模式匹配并通过一个我们称之为“超像素”的尺度步长（scale-space）的方法进行搜索。在NTSC上其亚像素精度匹配的速度是每秒4个32×32的分块，我计算位置、旋转和偏移量以便调整晶圆探测阶段，为晶片探测做准备。这被称为自动调整。我设计了一个模式识别伺服系统，它可以以几个微弧度的旋转精度和几分之一微米的位置精度对模式进行定位。在20世纪80年代末期，我转到Mentor Graphics工作，几年后，我向总裁Gerry Langeler提出辞职，离开了公司的R&D组，然后成立了一家名为Krig Research的研究公司，主要关注基于现在已经很少见的工作站（如SGI、Apollo、Sun，现在所有的都没有了），并且是面向高端的军方和以研究为主的客户提供计算机视觉和成像学方面的服务，一直到现在，我对它们仍然有浓厚的兴趣。现在的工业相比过去发生了很多变化，软件看起来几乎是免费的，硬件或SOC也几乎是免费的，所以我不清楚现在别人是怎么赚钱的。

就在最近，好多同人给了我一些灵感。感谢Paul Rosin提供的合成图像和一些架构上的想法。感谢Yann LeCun提供了关于深度学习和卷积网络方面的重要参考文献。感谢Shree Nayar准许我在书中使用了他的几幅插图，并且他仍在通过Cave研究项目为计算机视觉社区提供更多的灵感。感谢Luciano Oviedo帮我完善了关于工业界的行为和策略以及未来发展趋势方面的大量内容，并且我还和他进行了充满活力的讨论。

还有很多需要感谢的人，他们为我提供了帮助，无法在此一一列出。尽管我和他们的交谈有时可能非常简短，有时甚至只是通过虚拟的电子邮件或SKYPE网络电话，他们的研究工作和想法的影响力仍然存在。对下列同人我要特别感谢，感谢他们给本书的草稿或大纲提出的有意义的评论、插图，或是可能他们自己都没有意识到的灵感。感谢Rahul Suthankar以及Alexandre Alahi和我讨论了图像的使用；感谢Steve Seitz、Bryan Russel、Liefeng Bo以及Xiaofeng Ren同我就RGB-D计算机视觉和其他研究主题所做的深入讨论；感谢Gutemberg Guerra-filho、Harsha Viswana、Dale Hitt、Joshua Gleason、Noah Snavely、Daniel Scharstein、Thomas Salmon、Richard Baraniuk、Carl Vodrick、Hervé Jégou和Andrew Richardson；也感谢英特尔公司的几个同人，包括Ofri Weschler、Hong Jiang、Andy Kuzma、Michael Jeronimo、Eli Turiel，还有许多其他我没有提到的人员，我和他们就计算机视觉的主题做了很多令人感兴趣的讨论。

总结
总的来说，我的目标是考察研究人员用于特征描述的一些方法，即生成的重要度量，并且使得人们在实际中理解这些方法相对容易一些，同时考察如何使用计算机视觉分类学和鲁棒性准则评估这些方法以便获得他们所需要的结果，发现能改进的最领先的技术和方法领域。我希望在得到对本书第一版的所有反馈之后，能把第二版做得更好。

Scott Krig

Anno Domini，2014

本文仅用于学习和交流目的，不代表异步社区观点。非商业转载请注明作译者、出处，并保留本文的原始链接。

目录
前言
第1章图像的获取和表示
 1.1节图像传感器技术
 1.2节摄像机和计算成像
 1.3节三维深度处理
 1.4节三维表示：体元、深度图、网格和点云
 1.5节总结
第2章图像预处理
第3章全局特征和区域特征
第4章局部特征设计、分类和学习
第5章特征描述属性的分类学
第6章兴趣点检测与特征描述子研究
第7章基准数据、内容、度量和分析
第8章可视流程及优化
附录A 合成特征分析
附录B 基准数据集概述
附录C 成像和计算机视觉资源
附录D 扩展SDM准则
译后记
参考文献