[日常杂言]关于目标检测的思考

crediks

于 2018-10-30 16:08:06 发布

阅读量385

点赞数

分类专栏：日常杂言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250416/article/details/83542608

版权

日常杂言专栏收录该内容

1 篇文章 0 订阅

订阅专栏

日常杂言主要是一些非正式的思考，仅记录。

今天去face++面试，面试官一开始问我，faster rcnn中的rpn，为什么要设置多个尺寸的anchor？

我说，是根据边框回归的原理，只有当Proposal和Ground Truth比较接近时（线性问题），我们才能将其作为训练样本训练我们的线性回归模型，否则会导致训练的回归模型不work（当Proposal跟GT离得较远，就是复杂的非线性问题了，此时用线性回归建模显然不合理）。使用多个尺寸的anchor，以便和gt隔得比较近。

面试官说，那如果不考虑优化呢，那么是否只需要考虑一个尺寸的anchor就可以呢？

Emmm，这样说看上去没错，但是肯定是有必要的。毕竟实验已经证明了anchor大小和尺寸设置合理的必要性。

===========================================================================================

于是，面试官又问了两个问题：

1.目标检测与分类有什么不同？

答：目标检测中目标的个数是不确定的，而分类的目标个数是确定的，是一个。

2.既然目标检测中目标的个数是不确定的，那么相当于输入一张图片，通过一个函数（也可以理解为神经网络），输出检测框的集合。其中，这个集合的数目是不确定的。那么，这个函数应当如何设计，才能输出这种不确定的数目的集合呢？

说实话，一开始没有明白面试官的意思，一直在思考神经网络最后一层矩阵的变换。后来，听了面试官的解释，才明白。

目前这样的函数是很难设计的，只能去近似获取。

anchor的设计，就是相当于对集合中不确定的元素进行枚举。

===========================================================================================

后来，面试官又提到说，rnn也是用于输出变长集合的一种方式。那么，rnn的缺点在于什么呢？

可能由于自己在做场景文字识别的时候，输入图片均是已裁剪好的字符串，未想到对齐问题。其实，rnn的缺点在于它的不稳定性。如果起始点没有对齐，那么输出也可能有误（大意这样，具体还要进一步理解）。

收获颇丰：）

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
5
评论
[日常杂言]关于目标检测的思考

日常杂言主要是一些非正式的思考，仅记录。今天去face++面试，面试官一开始问我，faster rcnn中的rpn，为什么要设置多个尺寸的anchor？我说，是根据边框回归的原理，只有当Proposal和Ground Truth比较接近时（线性问题），我们才能将其作为训练样本训练我们的线性回归模型，否则会导致训练的回归模型不work（当Proposal跟GT离得较远，就是复杂的非线性问题了...
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。