贝叶斯优化与结构化预测 | 大幅度提升目标检测精度

最新推荐文章于 2021-11-11 09:37:00 发布

计算机视觉研究院

最新推荐文章于 2021-11-11 09:37:00 发布

阅读量661

点赞数

文章标签：人脸识别计算机视觉人工智能深度学习机器学习

本文链接：https://blog.csdn.net/gzq0723/article/details/115451195

版权

欢迎关注“

计算机视觉研究院

”

计算机视觉研究院专栏

作者：Edison_G

节假日在家里整理资料，发现一篇很早之前阅读过的一篇paper，主要用贝叶斯优化器和结构化预测来提升目标检测的精度，今天和大家分享下这框架，有兴趣的同学可以在这条想法上继续衍生，提出更好的新想法新框架！

扫码关注我们

公众号｜计算机视觉研究院

简介｜主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。

一、前言&简要

基于深度卷积神经网络的目标检测系统最近在几个目标检测基准上取得了突破性的进展。虽然这些high-capacity神经网络学习到的特征可以区分类别，但不准确的定位仍然是检测错误的主要来源。在高容量CNN架构的基础上，研究者通过以下来解决定位问题。1)使用基于贝叶斯优化的搜索算法，按顺序提出目标边界框的候选区域；2)用结构化损失训练CNN，明确地惩罚CNN的定位不准确性。

在实验中，研究者证明了在VOC 2007年和2012年的数据集上，所提出的每种方法都比基线方法提高了检测性能。此外，两种方法是互补的，结合起来明显优于以前的先进技术。

二、背景

DPM及其变体多年来一直是目标检测任务的主要方法。这些方法使用图像描述符，如HOG、SIFT和LBP作为特征，并密集地扫描整个图像，以找到最大的响应区域。随着CNN在大规模目标识别上取得的显著成功，提出了几种基于CNNs的检测方法。遵循传统的区域候选滑动窗口方法，Sermanet等人[Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. OverFeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014 ]提出使用cnn对整个图像进行详尽的搜索，但通过在多个尺度上同时对整个图像进行卷积，使其有效。除了滑动窗法，Szegedy等人[C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS]使用CNNs返回图像中目标的边界框，并使用另一个CNN分类器来验证预测的框是否包含对象。Girshick等人[R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR]根据“recognition using regions”范式提出了R-CNN，这也激发了之前几种最先进的方法。在该框架下，通过选择性搜索算法为图像提出了几百或数千个区域，CNN确定这些候选区域。研究者的新方法是建立在使用[K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR]中提出的CNN的R-CNN框架上的，但是，1)一种新的方法在定位差的情况下提出额外的边界框，2)一个具有提高定位灵敏度的分类器。

三、Fine-grained search for bounding box via Bayesian optimization

3.1 General Bayesian optimization framework

在贝叶斯优化框架中，假设f=(x,y)是从概率模型中提取的：

贝叶斯优化在函数计算的数量方面是有效的，当f的计算成本昂贵时也特别有效。当a(yN | DN)比f计算要简便得多，而arg max yN+1(yN+1 | DN)的计算只需要一些函数计算时，可以有效地找到一个更接近GT的解决方案。

3.2 Efficient region proposal via GP regression

在这里，研究者使用常数平均函数m(y) = m0和SEard，确定如下：

GP回归(GPR)问题试图找到一个新的参数yN1，给定N个观测DN，最大化获取函数的值，在者情况下，用期望的改进(EI)定义为：

3.3Local fine-grained search

四、实验

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！