商家招牌的分类与检测

最新推荐文章于 2024-09-05 21:38:06 发布

置顶爱破破爱科研

最新推荐文章于 2024-09-05 21:38:06 发布

阅读量3.5k

点赞数 5

文章标签：广告牌识别深度学习 Deformable

本文链接：https://blog.csdn.net/intflojx/article/details/81278393

版权

现实生活中的招牌各种各样，千变万化。针对初赛，在现实世界中，选取100类常见的招牌信息，如肯德基、麦当劳、耐克等。将最终的分类结果上传到比赛平台。

数据典型图像

a.样本类别多样性

b.每类样本数据多样化

思路：初赛难度不大，通过简单的数据增强，将图像经过ResNet50提取特征，经过FC+softmax或者SVM就能达到很好的效果，最终提交结果准确率为0.994. 成功通过初赛。（可以尝试一些经典机器学习分类器、gcforst等方法，每一种都能有不错的效果，可能初赛难度不大）

复赛赛题

1、赛题详情：

针对检测+分类任务，我们提供9000张带有位置信息和类别信息的图像数据用于训练，4351张图像用于评估测试。该数据集全部来源于百度地图淘金，选取了60类常见品牌

类别。比如，肯德基，星巴克，耐克等。

2、数据格式：

所有数据打包成一个文件，整个压缩包中包含4个文件

序号	名称	说明
1	train	训练数据文件夹，包含所有训练图像
2	train.txt	训练数据的label对照文件，每一行为图片名+label，例如： filename label x_min y_min x_max y_max 注：每行字段采用空格分隔 label：该矩形框对应的类别信息【1～60类】 x_min/y_min：对应矩形区域的左上顶点x/y信息 x_max/y_max：对应矩形区域的右下定点x/y信息
3	test	测试数据文件夹，包含所有测试数据
4	test.txt	测试数据的文件列表

3、提交说明：

（一）提交结果文件格式

每行对应一条检测结果：filename label score x_min y_min x_max y_max

注：每行字段采用空格分隔

label：该矩形框对应的类别信息【1～60类】

x_min/y_min：对应矩形区域的左上顶点x/y信息

x_max/y_max：对应矩形区域的右下定点x/y信息

注意事项

a）提交结果共七列，字段间的分割符为空格；

b）提交结果不包含列的名称；

c）提交结果文件的格式要求为csv；

d）不符合格式要求的提交结果，将被评为无效成绩，以“-”标识。

4、评价指标：

平台根据参赛者提交的结果文件，计算mAP。根据mAP进行排名，并最终选出优胜者参加答辩环节。

注：mAP计算中，Iou阈值采用0.5

这种比赛只要求精度对时间没有要求，所以最佳实践肯定是双阶段的网络。采用Faster RCNN+ FPN+ Deformable结构，提升双阶段的效果。通过可以对无广告牌区域进行去除，然后调整图像的大小达到扩充数据集效果、加上一些旋转、亮度等变换来做数据增强。

其中：FPN可以提取多尺度特征，

来自 Facebook 的特征金字塔网络 Feature Pyramid Networks(FPN)。FPN 主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量情况下，大幅度提升了小物体检测的性能。我们将从论文背景，论文思想，结果与结论几方面探讨此论文。在物体检测里面，有限计算量情况下，网络的深度（对应到感受野）与 stride 通常是一对矛盾的东西，常用的网络结构对应的 stride 一般会比较大（如 32），而图像中的小物体甚至会小于 stride 的大小，造成的结果就是小物体的检测性能急剧下降。传统解决这个问题的思路包括：（1）多尺度训练和测试，又称图像金字塔，如图 1(a) 所示。目前几乎所有在 ImageNet 和 COCO 检测任务上取得好成绩的方法都使用了图像金字塔方法。然而这样的方法由于很高的时间及计算量消耗，难以在实际中应用。（2）特征分层，即每层分别预测对应的 scale 分辨率的检测结果。如图 1(c) 所示。SSD 检测框架采用了类似的思想。这样的方法问题在于直接强行让不同层学习同样的语义信息。而对于卷积神经网络而言，不同深度对应着不同层次的语义特征，浅层网络分辨率高，学的更多是细节特征，深层网络分辨率低，学的更多是语义特征。

图1

因而，目前多尺度的物体检测主要面临的挑战为：

如何学习具有强语义信息的多尺度特征表示？
如何设计通用的特征表示来解决物体检测中的多个子问题？如 object proposal, box localization, instance segmentation.
如何高效计算多尺度的特征表示？

针对这些问题，提出了特征金字塔网络 FPN，如图 1(d) 所示，网络直接在原来的单网络上做修改，每个分辨率的 feature map 引入后一分辨率缩放两倍的 feature map 做 element-wise 相加的操作。通过这样的连接，每一层预测所用的 feature map 都融合了不同分辨率、不同语义强度的特征，融合的不同分辨率的 feature map 分别做对应分辨率大小的物体检测。这样保证了每一层都有合适的分辨率以及强语义特征。同时，由于此方法只是在原网络基础上加上了额外的跨层连接，在实际应用中几乎不增加额外的时间和计算量。

同样的广告牌在图像中可能呈现出不同的大小、姿态、视角变化甚至非刚体形变，Deformable可以适应这些复杂的广告牌几何形变。提升双阶段的效率。

DCNN_10