商家招牌的分类与检测

现实生活中的招牌各种各样,千变万化。针对初赛,在现实世界中,选取100类常见的招牌信息,如肯德基、麦当劳、耐克等。将最终的分类结果上传到比赛平台。

  数据典型图像

    a.样本类别多样性

1.jpg    2.jpg    3.jpg

 4.jpg   

 

    b.每类样本数据多样化

6.jpg

思路:初赛难度不大,通过简单的数据增强,将图像经过ResNet50提取特征,经过FC+softmax或者SVM就能达到很好的效果,最终提交结果准确率为0.994. 成功通过初赛。(可以尝试一些经典机器学习分类器、gcforst等方法,每一种都能有不错的效果,可能初赛难度不大)

  复赛赛题

    1、赛题详情:

    针对检测+分类任务,我们提供9000张带有位置信息和类别信息的图像数据用于训练,4351张图像用于评估测试。该数据集全部来源于百度地图淘金,选取了60类常见品牌

    类别。比如,肯德基,星巴克,耐克等。

    

    2、数据格式:

    所有数据打包成一个文件,整个压缩包中包含4个文件

    

序号

名称

说明

1

train

训练数据文件夹,包含所有训练图像

2

train.txt

训练数据的label对照文件,每一行为图片名+label,例如:                                                                   

filename label x_min y_min x_max y_max

1.png

注:每行字段采用空格分隔

label:该矩形框对应的类别信息【1~60类】

x_min/y_min:对应矩形区域的左上顶点x/y信息

x_max/y_max:对应矩形区域的右下定点x/y信息

3

test

测试数据文件夹,包含所有测试数据

4

test.txt

测试数据的文件列表

2.png

 

 

 

     3、提交说明 

    (一)提交结果文件格式    

每行对应一条检测结果:filename label score x_min y_min x_max y_max 

              3.png

       注:每行字段采用空格分隔

label:该矩形框对应的类别信息【1~60类】

x_min/y_min:对应矩形区域的左上顶点x/y信息

x_max/y_max:对应矩形区域的右下定点x/y信息

 

         

      注意事项

             a)提交结果共七列,字段间的分割符为空格;

             b)提交结果不包含列的名称;

             c)提交结果文件的格式要求为csv;

             d)不符合格式要求的提交结果,将被评为无效成绩,以“-”标识。

    4、评价指标

      平台根据参赛者提交的结果文件,计算mAP。根据mAP进行排名,并最终选出优胜者参加答辩环节。

       注:mAP计算中,Iou阈值采用0.5

这种比赛只要求精度对时间没有要求,所以最佳实践肯定是双阶段的网络。采用Faster RCNN+ FPN+ Deformable结构,提升双阶段的效果。通过可以对无广告牌区域进行去除,然后调整图像的大小达到扩充数据集效果、加上一些旋转、亮度等变换来做数据增强。

其中:FPN可以提取多尺度特征,

来自 Facebook 的特征金字塔网络 Feature Pyramid Networks(FPN)。FPN 主要解决的是物体检测中的多尺度问题,通过简单的网络连接改变,在基本不增加原有模型计算量情况下,大幅度提升了小物体检测的性能。我们将从论文背景,论文思想,结果与结论几方面探讨此论文。在物体检测里面,有限计算量情况下,网络的深度(对应到感受野)与 stride 通常是一对矛盾的东西,常用的网络结构对应的 stride 一般会比较大(如 32),而图像中的小物体甚至会小于 stride 的大小,造成的结果就是小物体的检测性能急剧下降。传统解决这个问题的思路包括:(1)多尺度训练和测试,又称图像金字塔,如图 1(a) 所示。目前几乎所有在 ImageNet 和 COCO 检测任务上取得好成绩的方法都使用了图像金字塔方法。然而这样的方法由于很高的时间及计算量消耗,难以在实际中应用。(2)特征分层,即每层分别预测对应的 scale 分辨率的检测结果。如图 1(c) 所示。SSD 检测框架采用了类似的思想。这样的方法问题在于直接强行让不同层学习同样的语义信息。而对于卷积神经网络而言,不同深度对应着不同层次的语义特征,浅层网络分辨率高,学的更多是细节特征,深层网络分辨率低,学的更多是语义特征。

图1

因而,目前多尺度的物体检测主要面临的挑战为:

  1. 如何学习具有强语义信息的多尺度特征表示?
  2. 如何设计通用的特征表示来解决物体检测中的多个子问题?如 object proposal, box localization, instance segmentation. 
  3. 如何高效计算多尺度的特征表示?

针对这些问题,提出了特征金字塔网络 FPN,如图 1(d) 所示,网络直接在原来的单网络上做修改,每个分辨率的 feature map 引入后一分辨率缩放两倍的 feature map 做 element-wise 相加的操作。通过这样的连接,每一层预测所用的 feature map 都融合了不同分辨率、不同语义强度的特征,融合的不同分辨率的 feature map 分别做对应分辨率大小的物体检测。这样保证了每一层都有合适的分辨率以及强语义特征。同时,由于此方法只是在原网络基础上加上了额外的跨层连接,在实际应用中几乎不增加额外的时间和计算量。

同样的广告牌在图像中可能呈现出不同的大小、姿态、视角变化甚至非刚体形变,Deformable可以适应这些复杂的广告牌几何形变。提升双阶段的效率。

DCNN_10

同时代码使用可以将图像分到几个不同的尺度,通过不同尺度的检测结果非极大值抑制合并得到行精细的结果。

结果:

 

可以看出网络有抗形变性能,经测试:调整后的网络能达到0.81的mAP.

 

 

 

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值