Computer Vision（C. Rasche）计算机视觉论文解读（1 Introduction）

最新推荐文章于 2023-06-29 13:21:08 发布

置顶

Mowa

最新推荐文章于 2023-06-29 13:21:08 发布

阅读量1.5k

点赞数 1

分类专栏：计算机视觉文章标签：计算机视觉

本文链接：https://blog.csdn.net/u012285175/article/details/84670358

版权

本文是关于C. Rasche的《计算机视觉》论文的解读，主要介绍计算机视觉的基本特征提取方法、深度神经网络、图像处理技术以及目标检测、分割、识别等领域。内容涵盖了从历史发展到现代技术，包括自动驾驶、医学成像等多个应用领域，同时提供了Matlab和Python的代码示例。

摘要由CSDN通过智能技术生成

Abstract

1 Introduction

1.1 Realted Fields

1.2 Recognition - An Overview

1.3 Areas of Applicaiton（Examples）

1.4 Organization of a Computer Vision System

1.5 Historical Note

1.6 From Development to Implementation

1.7 Reading

1.8 Exercises

Abstract

我们首先勾勒出一些基本的特征提取方法，然后介绍那些臭名昭着的深度神经网络。接下来，我们继续进行基于梯度直方图的特征提取和匹配 - 它们构建了许多任务的基础，例如目标实例检测和图像检索。然后，我们引入基于滑动窗口技术的目标检测，例如，适用于人脸和行人检测。它遵循图像处理技术的处理 - 分割和形态处理 - 以及形状识别技术。我们概述了基本的跟踪方法 - 针对区域和运动的物体。我们以对视频监控，车载视觉系统和遥感的调查结尾。这些方法在Matlab中进行了探索，并提供了足够的代码片段来立即探索所有这些概念; Python代码部分提供。可以在没有任何特定先决条件的情况下遵循注释，但是懂得线性代数，信号处理和模式识别的基本知识具有很大的优势。

先决条件推荐 基本编程技巧; 对于写很多代码的热情

建议基本统计模式识别，基本线性代数，基本信号处理

1 Introduction

计算机视觉是解释图像内容的领域。它关注整个图像的分类，例如在对上传到互联网（Facebook，Instagram）的照片进行分类的系统中。或者计算机视觉涉及识别图像中的物体，例如人脸检测或汽车牌照（Facebook，GoogleStreetView）。或者它涉及图像方面的检测，例如生物医学图像中的癌症检测。

Origin 计算机视觉最初是在20世纪70年代成立的人工智能领域的子学科。创建的目标是创建一个与人类视觉系统具有相同感知能力的系统 - 您的眼睛和大部分大脑。人类视觉系统可以轻松地解释任何场景：它可以完美地区分数千个类别，并且它可以在几百毫秒的时间跨度内找到场景中的对象;它可以轻松地在几种类型的识别过程之间切换，具有灵活性和快速性，其复杂性和动态性尚未得到很好的理解。很快就发现，这个目标相当雄心勃勃。

相反，计算机视觉专注于一系列具体的识别挑战，将在1.2节中介绍。这些挑战通常可以以不同方式实施，每种实施方案都有优点和缺点。在过去的几十年中，已经创建了许多应用程序（第1.3节），其中一些实现的任务现在开始优于人类观察者 - 例如人脸识别，字母识别或通过交通移动的能力（自动驾驶车辆）。尽管全视觉系统的最初目标还没有实现，但这本身就令人震惊。计算机视觉认为今天是自己的领域。

Frontier 尽管计算机视觉已经发展了近50年，但它仍然被认为是一个前沿。现代计算机视觉的成功不是真正新颖算法的结果，而是计算机速度和内存增加的结果。特别是形状识别 - 尽管其简单的声音任务 - 仍然没有被正确理解。尽管谷歌有一个可以识别数千个类的系统，但系统偶尔会失败，人们可能想知道为了实现完美的识别过程需要发明什么其他算法。如果不发明这些算法，那么家用机器人可能总是会产生一些神经拉伸错误，例如将洗衣篮误认为是垃圾桶，将微波炉与玻璃柜混淆等等。因此，尽管已经取得了所有进展，但它仍然需要创新的算法。

特别是在过去几年中，计算机视觉通过使用所谓的深度学习算法获得了新的推动力，通过该算法可以对相当大的图像集进行分类。这就是为什么我们在经典方法快速热身之后，相对较早地处理该主题（第5节）的原因。然后，我们继续使用在深度学习算法到来之前流行的方法，即特征提取和匹配（第6节和第7节）。后来，我们继续传统技术（第9节），我们还提到了计算机视觉最神秘挑战的方法，即形状识别（第11节）。