图像分割相关技术之滑动窗口、RPN以及anchor box简介
标签:##
时间:2019/11/17 11:07:25
作者:小木
对象识别(object recognition)是计算机视觉(computer vision)中的一种任务。根据维基百科的定义,它的目的是为了寻找并识别某个图像或者是视频序列中的对象。对象识别中的一项基础工作是进行图像分割,找出包含对象的区域。本文简要介绍图像分割中相关的selective search、region proposal networks以及anchor box的概念。
[TOC]
#### 一、图像分割简介
对象识别(object recognition)是计算机视觉(computer vision)中的一种任务。根据维基百科的定义,它的目的是为了寻找并识别某个图像或者是视频序列中的对象。
在很长的一段时间内,对象识别都要求他们的区域是事先划定(delineated)好的。这个问题产生了图像分割任务,该分割旨在通过通用算法对图像进行唯一的分割,每一个分割应该包括了一个对象。
换句话说,图像分割的目的是将一副图像根据色彩、纹理等特征将图像划分成几个互不相交的区域,每个区域内具有一致或者相似的特征。
但是图像分割问题有一些挑战。
- 首先,图像都是有层次的,以下图为例,沙拉和勺子都在碗里,而碗是在桌子上的。因此,根据目的不同以及图片所处的环境,图片中的对象都是有层次的。这就导致了图像分割必须是带层次的。

本文介绍了计算机视觉中的图像分割技术,包括滑动窗口、选择性搜索(selective search)、区域提议网络(RPN)以及Anchor Box的概念。滑动窗口通过固定大小的窗口进行对象识别,而RPN在 Faster R-CNN 中用于产生区域提议,Anchor Box则解决了多尺度对象检测的问题。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



