感谢子豪兄的分享-关于RCNN的学习(一)

https://www.bilibili.com/video/BV1d64y1W74E?spm_id_from=333.999.0.0https://www.bilibili.com/video/BV1d64y1W74E?spm_id_from=333.999.0.0https://www.bilibili.com/video/BV1d64y1W74E?spm_id_from=333.999.0.0感谢子豪兄的开源精神

红色表示图像分类算法,绿色表示目标检测算法,但是这个年份是不是有点问题

语义分割:区分每一个像素的类别

实例分割:在语义分割的基础上区分每个物体

 keypoint detection:关键点检测

做一些单词区分

detection 意味着你能看到目标。比如手势识别,骨干识别,keypoint detection

recognition 意味着你能认识目标。比如它是车,人,或动物。目标检测,object recognition

identification 意味着你能分辨目标。能找出同一类下的不同,比如它是什么车。

bounding box 边界框

RCNN原理的简述

在原图上提取2000+的候选框,将候选框缩放至统一尺寸,逐一送进同一个卷积网络,每个候选框最终的到4096维的卷积特征,一方面送进class个数个用于分类的SVM中,一方面用于预测框的回归

功耗分布

光以此图来看,将2000+的候选框逐一送进网络最为耗时,可不嘛,一张图当2000张用,这数据规模可是不得了

为了解决RCNN的性能问题,有大量的方法:

 像共享卷积运算,就是从原图提取卷积特征,然后所有候选框共享这个特征

RCNN的各个模块-选择搜索算法

产生2000+的候选框

 

通过聚类,先对图像进行初步分割,然后做融合,逐步收敛候选框的数量

 得到候选框之后,将候选框缩放至227*227的尺寸

 填充的灰条的值等于整张图片像素的平均值

扩大候选框dilate proposal,一边是扩大16pix

 另外,

这句话说的很抽象,没看懂?

RCNN的错误分布:

为什么使用SVM而不是用softmax??

 这里也是不太明白

RCNN:regions with CNN features

先讲RCNN的测试阶段:

提取好rigion proposals,对每一个proposal做dilate,目的是增加rigion的上下文信息

 开始做分类

bbox回归,refinement提炼

 由此产生一个问题:bbox的回归怎么做的??是有一个训练好的回归器吗??这个回归是反映到原图上,还是说只是针对这个proposal??

训练RCNN的思路(有当时的时代局限性):

鉴于当时用于目标检测的数据集很少,使用在数据丰富的辅助任务上预训练出的模型,然后再迁移到目标检测上

 

 这个fine tune 需要做到什么程度呢??RCNN是有SVM和回归器的,这俩是否参与预训练??

还有几个问题:

1.正负样本怎么定义

正负样本是相对的概念,不同的正负样本定义对问题解决没有本质影响,但好的正负样本定义可以减轻认知负担、方便人对问题的理解。

比如说做分类任务,对于类别 cat, 的确是猫的图片就判定为正样本,否则判定为负样本

又比如说错误检测任务,那么这时候就将存在错误的样本判定为正样本,这虽然有点反直觉,但这正体现了上述的所谓相对的概念

正负样本的设定应该以目标为导向,或者说他就是为了我们的目标而服务

2.预测框回归是怎么做的?借助神经网络??

3.SVM怎么实现的分类

4.预训练模型和fine tune模型之间的关系 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值