R-CNN随笔No.3

最新推荐文章于 2023-04-12 20:38:50 发布

懵懂小卡通

最新推荐文章于 2023-04-12 20:38:50 发布

阅读量482

点赞数 1

文章标签：计算机视觉目标检测机器学习深度学习

本文链接：https://blog.csdn.net/oyjxer/article/details/51814869

版权

本文详述R-CNN在ILSVRC 2013数据集上的实践，包括数据处理策略、region proposals生成、训练过程以及ablation研究。通过使用val数据和部分train数据生成新训练集，R-CNN在目标检测上展现出优秀性能，同时对比了不同数据使用对结果的影响。

摘要由CSDN通过智能技术生成

今天我来解说一下R-CNN在ILSVRC 2013数据集上的详细内容。
  在前面（随笔No.2）我们已经提到了一些内容，我们在这给出更详细的解释。首先要说明一下ILSVRC 2013数据集与VOC数据不同，其缺乏homogeneous（同质）；因此我们需要做一些处理。
  我们先简单介绍一下ILSVRC 2013 检测数据集，这个数据集被分为三个部分：train（395，918），val（20，121），和test（40，152）（括弧中的数字表示图像数量）。其中val和test取自于PASCAL VOC中图像具有相同场景和复杂程度的图像分布，其图像中的目标均使用bounding-box标记出；而train取自于ILSVRC 2013 分类图像相同的分布，其图像中的目标单一，居中且可能未被标出。
  train数据缺乏注释，fine-tuning和训练SVM所需的负样本来自哪呢？train数据与val和test服从不同的分布，那训练数据是全部使用还是使用部分呢？
对上述问题，我们的策略是这样的：我们使用val数据和一些train数据（正样本）来生成新的训练数据。由于训练和验证阶段都需要使用val数据，我们需要把val等分为两部分val1和val2。具体分割方法是这样的，首先生成一系列候选方案（使用图像中所含类别的数目进行聚类，再使用随机抽样），然后选择最大类不平衡最小的一个。
  在ILSVRC 2013上region proposals是怎样生成呢