CS231n:Localization and Detection(定位与检测)

最新推荐文章于 2021-09-10 15:36:44 发布

WHCer

最新推荐文章于 2021-09-10 15:36:44 发布

阅读量1.2k

点赞数

分类专栏：计算机视觉与opencv 文章标签： cv

本文链接：https://blog.csdn.net/qq_29596177/article/details/53641345

版权

计算机视觉与opencv 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

分类与定位
1. 作为回归问题的定位
  1. 一般步骤
    1. 训练(或下载)一个分类网络
    2. 在网络后添加全连接regression head
      3.仅仅用SGD与L2 Loss 来训练网络
    3. 在测试时,计算两个网络
  2. 在确定总类别为C类的情况下训练网络.
    将定位的bounding box输出改为 $C\times 4 numbers$ 效果更好
  3. 在何处加入 regression head
  4. 同时定位(确定数目的)多目标
    假设在图像中定位给定K 个目标. 那么将regression head输出改为 $K\times 4numbers$
    应用于人的姿态检测(用K 个关节点来表示人的结构)
2. 滑动窗口
  1. 一般步骤
    1. Run classification + regression network at multiple locations on a high resolution image (注意:在多尺度上运行窗口,同时定位出的bounding box, box可以超出图像(窗口)本身的大小),在下图中左上角窗口定位出的box超出了窗口本身,同时不仅输出了相应窗口,还输出了对应窗口的置信度
    2. Convert fully-connected layers into convolutional layers for efficient computation 将CNN卷积特性直接用于了多尺度窗口计算,加快计算
      
      对于这张图的流程与意义还不甚了解,求讲解
      
      理解:将全连接层变为了卷积层,这样在检测时可以利用多尺度输入.如图,认为第一行网络是对于14*14的图像而言,输出了一个实数,代表测试样本属于某一类的概率,那么如第二行所示,输入了16*16的图像,最终输出2*2的矩阵,就是在利用14*14的窗口滑动对16*16的图像采样,输出的矩阵对用每个取样窗口的置信值
    3. Combine classifier and regressor predictions across all scales for final prediction**接上,对于每一个窗口,不仅有运行的分类网络,还有regressor net给出一个bounding box,这样,对每一个Bounding box 都有一个置信度与之对应,综合得到最后的分类与box**
Detection检测(Output size inconstant)
1. 作为分类问题来处理:划分多个尺度下的多个窗口,然后对每个窗口做分类
  1. HOG and DPM Need to test many positions and scales(对每个窗口提取特征值然后分类)
  2. using Region Proposals