计算机视觉识别概述

本文介绍了计算机视觉识别的任务,包括图像分类、定位、物体识别和个体分割,通过Stanford大学cs231n课程的图解阐述它们的关系。讨论了如何通过CNN进行分类和定位,提出改造现有网络结构或采用滑动窗口的方法。还提及了AlexNet、Overfeat、VGG和ResNet等算法在定位任务中的应用,并引出了Object Detection的问题,提出了回归和结合窗口与分类的解决方案,以及区域提议算法的重要性。
摘要由CSDN通过智能技术生成

以下文章摘录自:

《机器学习观止——核心原理与实践》

京东: https://item.jd.com/13166960.html

当当:http://product.dangdang.com/29218274.html

(由于博客系统问题,部分公式、图片和格式有可能存在显示问题,请参阅原书了解详情)
————————————————
版权声明:本文为CSDN博主「林学森」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/xuesen_lin/

 

1.1    视觉识别概述

视觉识别具体包含哪些任务?

大家可能会在脑海中浮现:图像分类,物体识别,图像分割,图像定位等等。这么多五花八门的名词,它们之间究竟有什么关第呢?在深入讲解视觉识别算法之前,我们觉得很有必要先来把一些基本术语和概念理顺了。

这里借用Stanford大学cs231n课程上的一张图来让大家有一个直观的感受,如下所示:

图 ‑ 计算机视觉的核心任务

引用自stanford课程cs231n

 

上图非常清晰地描述了几种CV Task以及它们之间的关系,即:

l  Classification (分类)

也就是输入为一张image,我们的分类器需要给出这张图中描述的主体的类别归属。比如图片中的“主角”是一只猫,一只狗或者一个人等等

l  Localization (定位)

Classification只能告诉我们图片的类别归属,但并没有指出主体在图片中的具体位置,后者是由Localization来完成的。当然,通常大家会将Classification和Localization做为整体算法来研究,从而直接输出主体归属类别以及它在图片中的位置、大小等完整信息

l  Object Detection (物体识别)

前面的Classification和Localization针对的是图片中只有一个主体的情况——显然这还不够。比如你的家里养了猫、狗、乌龟等一堆动物,它们的大合照自然也就成为“多物体”识别的问题了。我们所说的Object Detection简单来讲就是Multiple objects + Classification + Localization,这也是在工业界应用最为广泛的一个视觉识别场景

l  Instance Segmentation (个体分割)

图像分割算法既要知道一张图片中有哪些物体,它们的位置,而且还需要把物体的轮廓精准的界定出来,因而它的实现难度理论上会更高,算法也会复杂一些

 

理解了几种CV Task后,接下来我

  • 12
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值