计算机视觉简介

在这里插入图片描述
计算机视觉 是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。
计算机图形学和计算机视觉的区别
简单的来说,计算机视觉侧重于对图像的识别,得到一些结论,而计算机图形学侧重于如何从其他数据产生到图像。具体来说:计算机图形学(Computer Graphics)讲的是图形,也就是图形的构造方式,是一种从无到有的概念,从数据得到图像。是给定关于景象结构、表面反射特性、光源配置及相机模型的信息,生成图像。
计算机视觉(Computer Vision) 是给定图象,从图象提取信息,包括景象的三维结构,运动检测,识别物体等。

计算机的主要任务

  1. 图像分类:分类任务是基础任务,而图像分类问题就是给输入图像分配标签类别的任务,这是计算机视觉的核心问题之一。一般说来,经典的图像分类算法是通过手工特征或者特征学习方法对整个图像进行全局描述,然后使用分类器判断是否存在某类物体。现在更多的是用端到端的深度学习技术。

  2. 物体检测:物体检测是视觉感知的第一步,也是计算机视觉的一个重要分支。物体检测的目标,就是用框去标出物体的位置,并给出物体的类别。物体检测和图像分类不一样,检测侧重于物体的搜索,而且物体检测的目标必须要有固定的形状和轮廓。图像分类可以是任意的目标,这个目标可能是物体,也可能是一些属性或者场景。

  3. 物体定位:如果说图像识别解决的是what,那么,物体定位解决的则是where的问题。利用计算视觉技术找到图像中某一目标物体在图像中的位置,即定位。目标物体的定位对于计算机视觉在安防、自动驾驶等领域的应用有着至关重要的意义。

另外,物体定位的延伸目标跟踪,是指在给定场景中跟踪感兴趣的具体对象或多个对象的过程。简单来说,给出目标在跟踪视频第一帧中的初始状态(如位置、尺寸),自动估计目标物体在后续帧中的状态。该技术对自动驾驶汽车等领域显得至关重要。

  1. 图像分割:图像分割指的是将数字图像细分为多个图像子区域(像素的集合,也被称作超像素)的过程。图像分割的目的是简化或改变图像的表示形式,使得图像更容易理解和分析。更精确地说,图像分割是对图像中的每个像素加标签的一个过程,这一过程使得具有相同标签的像素具有某种共同视觉特性。另外,“图像语义分割”是一个像素级别的物体识别,即每个像素点都要判断它的类别。它和检测的区别是,物体检测是一个物体级别的,他只需要一个框,去框住物体的位置,而通常分割是比检测要更难的问题。

  2. 图像标注:图像标注是一项引人注目的研究领域,它的研究目的是给出一张图片,你给我用一段文字描述它,近几年,工业界的百度,谷歌和微软 以及学术界的加大伯克利,深度学习研究重地多伦多大学都在做相应的研究。

  3. 图像生成–文字转图像:图片标注任务本来是一个半圆,既然我们可以从图片产生描述文字,那么我们也能从文字来生成图片。这个任务也是非常有趣的,特别是在深度学习模型GAN被研发出来之后,这个任务也有更多的方法来解决.

计算机视觉主要模型技术

  1. 图像分类设计主要的模型-卷积神经网络(CNN)

  2. 目标检测涉及主要模型是Fast R-CNN算法、YOLO、SSD以及R-FCN等等

  3. 基于CNN完成目标跟踪的典型算法是FCNT和MD Net。

  4. 图像分割的经典模型包括FCN模型,Mask R-CNN。

  5. 图像标注的话可以看下谷歌开源的“Show and Tell”

  6. 图像生成在今年来主流的方式是GAN模型和VAE模型,这两个生成模型都值得好好研究

  • 5
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值