Computer Vision(C. Rasche)计算机视觉 论文解读(1 Introduction)

本文是关于C. Rasche的《计算机视觉》论文的解读,主要介绍计算机视觉的基本特征提取方法、深度神经网络、图像处理技术以及目标检测、分割、识别等领域。内容涵盖了从历史发展到现代技术,包括自动驾驶、医学成像等多个应用领域,同时提供了Matlab和Python的代码示例。
摘要由CSDN通过智能技术生成

目录

Abstract        

1 Introduction

1.1 Realted Fields

1.2 Recognition - An Overview

1.3 Areas of Applicaiton(Examples)

1.4 Organization of a Computer Vision System

1.5 Historical Note

1.6 From Development to Implementation

1.7 Reading

1.8 Exercises


Abstract        

我们首先勾勒出一些基本的特征提取方法,然后介绍那些臭名昭着的深度神经网络。接下来,我们继续进行基于梯度直方图的特征提取和匹配 - 它们构建了许多任务的基础,例如目标实例检测和图像检索。然后,我们引入基于滑动窗口技术的目标检测,例如,适用于人脸和行人检测。它遵循图像处理技术的处理 - 分割和形态处理 - 以及形状识别技术。我们概述了基本的跟踪方法 - 针对区域和运动的物体。我们以对视频监控,车载视觉系统和遥感的调查结尾。这些方法在Matlab中进行了探索,并提供了足够的代码片段来立即探索所有这些概念; Python代码部分提供。可以在没有任何特定先决条件的情况下遵循注释,但是懂得线性代数,信号处理和模式识别的基本知识具有很大的优势。

先决条件推荐  基本编程技巧; 对于写很多代码的热情

建议  基本统计模式识别,基本线性代数,基本信号处理 

1 Introduction

计算机视觉是解释图像内容的领域。 它关注整个图像的分类,例如在对上传到互联网(Facebook,Instagram)的照片进行分类的系统中。 或者计算机视觉涉及识别图像中的物体,例如人脸检测或汽车牌照(Facebook,GoogleStreetView)。 或者它涉及图像方面的检测,例如生物医学图像中的癌症检测。

Origin  计算机视觉最初是在20世纪70年代成立的人工智能领域的子学科。创建的目标是创建一个与人类视觉系统具有相同感知能力的系统 - 您的眼睛和大部分大脑。人类视觉系统可以轻松地解释任何场景:它可以完美地区分数千个类别,并且它可以在几百毫秒的时间跨度内找到场景中的对象;它可以轻松地在几种类型的识别过程之间切换,具有灵活性和快速性,其复杂性和动态性尚未得到很好的理解。很快就发现,这个目标相当雄心勃勃。

相反,计算机视觉专注于一系列具体的识别挑战,将在1.2节中介绍。 这些挑战通常可以以不同方式实施,每种实施方案都有优点和缺点。 在过去的几十年中,已经创建了许多应用程序(第1.3节),其中一些实现的任务现在开始优于人类观察者 - 例如人脸识别,字母识别或通过交通移动的能力(自动驾驶车辆)。 尽管全视觉系统的最初目标还没有实现,但这本身就令人震惊。计算机视觉认为今天是自己的领域。

Frontier  尽管计算机视觉已经发展了近50年,但它仍然被认为是一个前沿。现代计算机视觉的成功不是真正新颖算法的结果,而是计算机速度和内存增加的结果。特别是形状识别 - 尽管其简单的声音任务 - 仍然没有被正确理解。尽管谷歌有一个可以识别数千个类的系统,但系统偶尔会失败,人们可能想知道为了实现完美的识别过程需要发明什么其他算法。如果不发明这些算法,那么家用机器人可能总是会产生一些神经拉伸错误,例如将洗衣篮误认为是垃圾桶,将微波炉与玻璃柜混淆等等。因此,尽管已经取得了所有进展,但它仍然需要创新的算法。

特别是在过去几年中,计算机视觉通过使用所谓的深度学习算法获得了新的推动力,通过该算法可以对相当大的图像集进行分类。 这就是为什么我们在经典方法快速热身之后,相对较早地处理该主题(第5节)的原因。 然后,我们继续使用在深度学习算法到来之前流行的方法,即特征提取和匹配(第6节和第7节)。 后来,我们继续传统技术(第9节),我们还提到了计算机视觉最神秘挑战的方法,即形状识别(第11节)。

1.1 Realted Fields

有几个领域与计算机视觉有关,其中两个领域密切相关,即图像处理和机器视觉; 事实上,这两个领域与计算机视觉在一定程度上重叠,他们的名字有时被同义使用。 尽管没有商定的定义和区别,但在这里我们试图区分它们:

图像处理涉及图像的变换或其他操纵,目的是强调图像的某些方面,例如, 对比度增强,或提取边缘,斑点等低级特征; 相比之下,计算机视觉更关注更高级别的特征提取及其用于识别目的的解释。

机器视觉致力于应用一些列技术和方法,在工业应用中提供基于图像的自动检测,过程控制和机器人引导。机器视觉系统通常具有3个特征:

1)在均匀背景下看到物体,这表示“受控情况”。
2)目标具有有限的结构可变性,有时只需要识别一个目标对象。
3)3D中的确切方向是感兴趣的。

一个例子是在收费站检测和读取汽车牌照,这是一种相对受控的情况。 相比之下,计算机视觉系统通常处理具有较大可变性的物体和位于不同背景下的物体。 GoogleStreetView中的汽车牌照检测是一个具有有限可变性但背景不同的目标对象的示例。

还有两个与Computer Vision重叠的领域:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值