计算机视觉的定义及其应用

计算机视觉(Computer Vision, CV)是一门研究如何让计算机达到人类那样“看”的学科。更准确点说,它是利用摄像机和电脑代替人眼使得计算机拥有类似于人类的那种对目标进行分割、分类、识别、跟踪、判别决策的功能。作为一个新兴学科,计算机视觉是通过对相关的理论和技术进行研究,从而试图建立从图像或多维数据中获取“信息”的人工智能系统。

    它是一门综合性的科学技术,主要包括计算机科学与工程、信号处理、物理学、应用数学与统计、神经生理学和认知科学等。

    目前,计算机视觉技术已经应用在制造业、工业检验、文档分析、医疗诊断、军事目标跟踪、自主导航等系统当中。

下面,让我们举例来更直观的了解计算机视觉所包含的范围;

(1)判断当前图片中车辆的个数、颜色、类型、外观;

(2)根据图片判断当前的零件是否有缺陷;

(3)对图片中的数字和字符进行提取和分类判别;

(4)判断当前图片中是否有人脸;

(5)对当前图片中的人脸与黑名单中的人脸进行比对验证;

(6)跟踪当前视频序列中的车辆;

(7)判断图片中人脸的表情;

(8)根据病人的CT图片判断该病人的病情;

(9)根据摄像机成像跟踪导弹当前的运动轨迹;

(10)根据车辆前方的摄像头成像来判断前方车辆与当前车辆的距离,从而决定是否需要提速或检测;

(11)判断当前图片是电脑还是DVD;

。。。


    上面的例子对于人类了来说是非常简单的,不过,对于计算机来讲,却异常复杂。原因在于人类经过几年甚至十多几十年的学习、认识和了解,已经对现实世界中存在的各种事物有了一个准确完善的分类归纳能力。而计算机则因为没有经过一个长久的、完整的学习和理解过程而显得比人类笨拙许多。试想一下,一个刚出生的婴儿,除了具备吃奶这样一个哺乳动物天生就有的能力外,他能够分清不同的人么?他能够分清不同的颜色、不同的形状、不同的外观、不同的表情么?很显然,不能!而一个三岁的小孩,应该可以基本分清常见的一些亲人了,但是,他却很难分清哪个是电脑哪个是DVD那个是Xbox360;另外,对于一个不具备医学知识的成年人来说,即使给他一张CT图片,他也很难判断这个CT图片的来判断是患病还是健康。究其原因,跟刚才提到的三岁小孩一样,都没有经过一个完整的、系统的、长久的、专业的学习训练过程。同样的道理,让计算机来达到人类所具备的这些能力,也需要一个完善的学习过程。如果完全不对计算机进行训练,那么它就跟刚出生的婴儿没什么区别,什么也不会。如果对他进行一些不完善的学习,那么它的某些视觉判断能力估计也就跟三岁小孩差不多。显然,如果想要让计算机对所“看见”的事物具有同正常成年人相接近的理解能力,就需要大量的样本来对计算机进行完善的、系统的学习和训练。


    比如,让计算机来判断当前物体的颜色。那么,就需要有一种手段使得计算机能够对各种颜色进行区分。而为了达到这样一个目的,计算机需要依次完成以下步骤:

(1)获取到相机捕获的图片;

(2)对需要进行颜色判别的物体进行分割;

(3)对物体进行特征提取;例如,RGB的均值是多少,方差值是多少,HSV的均值是多少,方差是多少,等等。。。

(4)对所提取的特征进行选择;比如,在理想条件下对苹果的颜色进行分类判别,可以用RGB均值;而在实际应用对人脸的肤色进行判断可能要用到HSV颜色空间等。

(5)针对大量的训练样本进行分类器设计与训练;

(6)针对实际的测试图片,在提取特征之后,将特征输入到分类器当中进行分类判别;

不难发现,其实计算机处理事物的逻辑顺序和人脸处理事物的逻辑顺序是一样的。只不过,由于人类已经经过了长年累月的学习,所以可以做到“不假思索”的对所看到的事物作出准确的理解和判断。而计算机在处理的过程当中,由于传感器灵敏度不高、成像质量不好、对图片不能有效的去处噪声、不能准确的提取事物的特征、不能准确的对事物作出分类归纳,所以往往造成了计算机的视觉能力比人类低下等情况的发生。值得提醒的是,由于计算机拥有人类所无法比拟的一些特点,例如,没有疲惫感、没有情绪、处理速度快等,所以,人们还是希望在很多场合能够代替人类来参与一些诸如监控火灾、统计车流量、识别车牌等繁琐重复性的社会活动。

而如今,随着计算机视觉技术的不断发展,越来越多的新产品,越来越多的全新的用户体验方式正在强烈的冲击着人们传统的生活方式。下面,就让我们举几个典型的例子来说明其中用到计算机视觉技术的一些产品:

(1)最近微软公司特别火爆的应用于Xbox360上的kinect,这其中包括了人脸检测、人脸识别与跟踪、动作跟踪、表情判断、动作识别与分类等计算机视觉领域的前沿技术;

(2)Google公司专门为android开发的免费软件goggles,它的功能简单点说,就是利用手机拍照得到的图片进行检索,专业术语叫做基于内容的图片检索(Content Based Image Retrieval, CBIR)如今仍然是计算机视觉领域的一个热门分支;

(3)Facebook公司的人脸识别分类软件;目前人脸识别在计算机视觉领域已经从事了近半个世纪的理论研究;

(4)2006年美国热播剧集《prison break》中男主角Micro Scofield 被FBI特工用市区监控摄像头进行实时跟踪的画面,这里用到的视频跟踪技术并不是科幻,而是计算机视觉领域真实存在的一个热门研究领域;

(5)Google的无人驾驶汽车技术;该技术运用了各种摄像头、激光设备、雷达传感器等,并根据摄像头捕获到图片及雷达和激光设备相互配合来感知车辆当前的速度,前方的交通标识、车道识别、判断周围行人与车辆的距离等信息,并以此来做出加速、减速、停车、左转、右转等判断,从而控制汽车实现真正的“自驾游”。需要提醒的是,除了google,大众和intel也在从事无人汽车驾驶技术的研究工作。

(6)腾讯QQ实验室最近发布的QQ手势达人for PPT,利用摄像头捕获手势的图片,并对简单的手势进行分类判别,从而实现翻PPT的目的;

(7)Google street view(google街景)和微软的street slide,都是一种用来观看城市街道景色的软件,尤其是street slide,利用普通相机拍摄的二维图片进行拼接,从而生成了全景图,使得用户可以在街道当中漫游。相信研究计算机视觉的人应该不会对图像拼接太陌生;

 

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/carson2005/archive/2011/04/16/6327624.aspx

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Sift窗口也称为滑动窗口,是计算机视觉领域中一种常见的图像处理技术。它是一种遍历图像的方法,通过将一个固定大小的窗口在图像上滑动,对窗口内的像素进行处理和分析。 Sift窗口的大小通常由用户定义,常见的大小为16x16或者32x32像素。然后,从图像的左上角开始,将窗口按照一定的步长在图像上滑动,通常步长为8像素或者16像素。每次滑动窗口的位置,我们都可以提取窗口内部的像素信息。 滑动窗口常用于特征提取、目标检测、图像识别等任务。在特征提取中,窗口内的像素可以用于计算图像的局部特征,如Sift特征、HOG特征等。在目标检测中,可以将滑动窗口应用于图像的每个位置,通过分类器判断窗口内是否存在目标对象。在图像识别中,可以将滑动窗口用于对整个图像进行扫描,从而实现整个图像的分类和识别。 Sift窗口的使用在计算机视觉领域有着广泛的应用。它可以用于图像分割、目标跟踪、行人检测等任务。通过灵活调整窗口的大小和步长,我们可以对图像进行更精细的分析和处理。 总之,Sift窗口是一种滑动窗口的方法,通过在图像上滑动窗口进行信息提取和分析,广泛应用计算机视觉领域的各种任务中。 ### 回答2: Sift Window是一种在图像处理和计算机视觉中常用的技术。它可以帮助我们通过在图像中不同位置滑动并计算特征来检测和识别图像中的目标。 Sift是尺度不变特征变换(Scale Invariant Feature Transform)的缩写。这是一种用于图像处理和计算机视觉中的算法,能够在不同尺度上提取出图像的特征点。Sift算法可以通过图像的局部特征点来实现尺度不变性,即使图像在缩放、旋转、平移等变换之后,仍然能够保持特征的稳定性。 为了计算并提取Sift特征,在图像中使用Sift Window,即在图像上滑动一个固定大小的窗口,并计算窗口内的像素值。窗口的大小可以根据具体的应用需求进行调整,通常是一个正方形或矩形的区域。 在每个窗口内,Sift算法会使用高斯差分金字塔来检测图像局部的极值点,这些极值点就是图像的特征点。通过计算特征点周围像素点的梯度方向和梯度幅值,Sift算法可以生成一个具有方向性的描述子,用于表示特征点的区域特征。 通过Sift Window的滑动,我们可以获取图像中的多个特征点及其描述子,从而对图像进行特征提取、目标检测和匹配等应用。Sift Window的应用领域广泛,包括图像识别、人脸识别、物体检测等。它的窗口大小、步长和特征点提取算法的参数设置等因素对结果的影响较大,需要根据具体场景进行调整。 ### 回答3: SIFT窗口是在计算机视觉中常用的一种特征提取方法。SIFT是Scale-Invariant Feature Transform的缩写,表示尺度不变特征变换。在计算机视觉和图像处理领域中,特征提取是非常重要的一个步骤,用于从图像中提取出具有鲁棒性和独特性的特征点。 SIFT窗口是在图像上滑动的一个固定大小的窗口。通过滑动窗口,可以在图像的不同位置寻找局部特征。SIFT窗口通常是一个方形窗口,在图像上滑动的过程中不断提取局部图像块进行特征提取。 SIFT窗口是用于提取图像中局部特征点的一个重要工具。通过滑动窗口的方式,可以在不同位置和尺度上提取出具有不变性的特征信息。SIFT窗口的滑动可以通过设置步长和尺度来控制,从而可以在不同的图像上对局部特征进行提取。 SIFT窗口的尺度不变性是SIFT算法的一个重要特点。通过多尺度的SIFT窗口,可以提取出图像中具有不同尺度的特征点。在实际应用中,这种尺度不变性非常有用,因为图像中的物体可能出现在不同的尺度上。 总而言之,SIFT窗口是一种用于图像特征提取的工具。通过滑动窗口的方式,在不同位置和尺度上提取出具有鲁棒性和独特性的局部特征点,为后续的图像处理和计算机视觉任务提供了重要的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值