[日常杂言]关于目标检测的思考

日常杂言主要是一些非正式的思考,仅记录。

今天去face++面试,面试官一开始问我,faster rcnn中的rpn,为什么要设置多个尺寸的anchor?

我说,是根据边框回归的原理,只有当Proposal和Ground Truth比较接近时(线性问题),我们才能将其作为训练样本训练我们的线性回归模型,否则会导致训练的回归模型不work(当Proposal跟GT离得较远,就是复杂的非线性问题了,此时用线性回归建模显然不合理)。使用多个尺寸的anchor,以便和gt隔得比较近。

面试官说,那如果不考虑优化呢,那么是否只需要考虑一个尺寸的anchor就可以呢?

Emmm,这样说看上去没错,但是肯定是有必要的。毕竟实验已经证明了anchor大小和尺寸设置合理的必要性。

===========================================================================================

于是,面试官又问了两个问题:

1.目标检测与分类有什么不同?

答:目标检测中目标的个数是不确定的,而分类的目标个数是确定的,是一个。

2.既然目标检测中目标的个数是不确定的,那么相当于输入一张图片,通过一个函数(也可以理解为神经网络),输出检测框的集合。其中,这个集合的数目是不确定的。那么,这个函数应当如何设计,才能输出这种不确定的数目的集合呢?

说实话,一开始没有明白面试官的意思,一直在思考神经网络最后一层矩阵的变换。后来,听了面试官的解释,才明白。

目前这样的函数是很难设计的,只能去近似获取。

anchor的设计,就是相当于对集合中不确定的元素进行枚举。

===========================================================================================

后来,面试官又提到说,rnn也是用于输出变长集合的一种方式。那么,rnn的缺点在于什么呢?

可能由于自己在做场景文字识别的时候,输入图片均是已裁剪好的字符串,未想到对齐问题。其实,rnn的缺点在于它的不稳定性。如果起始点没有对齐,那么输出也可能有误(大意这样,具体还要进一步理解)。

收获颇丰:)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值