华录杯-江苏违法广告检测-冠军总结

最新推荐文章于 2024-02-01 17:37:24 发布

置顶视觉盛宴

最新推荐文章于 2024-02-01 17:37:24 发布

阅读量1.8k

点赞数 6

文章标签：人工智能深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/cp1314971/article/details/109472524

版权

摘要

通过大概一年的学习，自己也是成功夺得一次检测方面的冠军，这个比赛属于目标检测但不是传统的检测任务，是一个非常具有挑战的比赛，让我从中受益匪浅和延伸出很多的idea。接下来就整体的讲解一下此次比赛。比赛连接

赛题理解

本次比赛提供合法数据集（无标签数据）和违法数据集（有标签数据）其中本次得分为0.2的acc和0.8的map得分共同组成，我们要完成分类合法数据检测违法数据。这里就不同于我们以往的目标检测任务，我们需要先进行分类在检测，那么我们我们该如何完成这个任务。分类任务我们其实就通过阈值调成和类别判定来进行分类，比如在双阶段检测器中判定为背景和置信度低于0.3以下，我们就认为它为合法数据，分类完成之后就可以进行检测任务了，输出置信度0.3以上就完成了检测任务。
在这里插入图片描述
这个赛题最难的点在于分类不再是通过标注框内信息进行分类。一样的广告牌在不同的位置就会有不同的类别。比如遮挡照片和一店多招，遮挡照片可以很清晰的看到标注框内大部分只有广告信息，但是类别判定主要是由于框内特征和背景特征共同决定。一店多招也是一张照片中由于一个店铺贴了二张广告，这个类别判定是属于框与框之前的关系。所以这就导致这个赛题很难得分。最主要是现有的目标检测框架不足以满足这些任务需求。
在这里插入图片描述

核心技巧

这个赛题最主要的是如何利用合法数据集，因为合法数据集你是没用标签数据的。如果你不利用违法数据集训练模型很难得到acc部分的得分，这个时候就可以先利用违法数据集训练一个基础模型，以双阶段模型为例，你可以预测全部的合法数据集生成json标注，类别全部为0，在双阶段模型中，0就是背景，这样就能利用上更多的负样本进行训练。即使这样分类得分在0.7左右，很难突破到0.8分。得到标注文件就可以进行训练了，这个时候合法数据集和违法数据集一起重新训练，在这其中，我模型之前的albu和一些其他的策略都是测试出来过知道那个能上分的。所以无论是我在训练基础模型还是训练最终模型的过程，始终一直加入很多的策略。

这些策略包括13中数据增强，数据增强一共有三大类别。第一种是图像转动，上下左右转置，第二种是色调调整，第三种是改变图像信息，比如cutout和mosaic。在这个赛题，改变图像信息的数据增强基本都是掉分的策略，本身这个赛题正负样本可以完全都是广告牌，只是背景不同。所以图像信息很重要。第三类的数据增强测试了几种都没能提升分数。其他策略使用了SEPC，Giou loss，res2net，DCN 多尺度训练和余弦退火策略。这些基本都是属于涨点策略。

初赛思路

初赛，其实由于数据量还是太少，分类效果还是双阶段模型效果更好，这里双阶段模型和单阶段最大的差异是双阶段本身就会为类别自动添加背景类别，所以在利用负样本，在数据量少的情况下，产生更多的负样本，分类效果优于atss单阶段模型
在这里插入图片描述

复赛思路

在数据量又增加的情况下，使用的res2net101强大的前置网络模型学习能力在分类还是map预测效果都会优于双阶段模型。这里单阶段为什么会优于双阶段模型，最主要是atss策略产生的正负样本有区别，和不同的级联检测器相比，atss策略产生的正负样本框的质量更优，而这次比赛其实不需要级联那样提供太过准确的框，如果先验框和真实标注框有差异是最好的，这样还能提取到额外的背景使得分类效果更好一点。
在这里插入图片描述

算法模型

在这里插入图片描述
在训练模型的时候更多是靠经验去感知那部分可以带来影响，就不如albu这个部分，在普通的目标检测任务会用albu和不会用albu涨分幅度会差别很大。其他策略就通过理论去猜测可能会很有用然后实验去验证。

总结

比赛其实更多的是尝试自己的想法会不会更好，这些都是平时看论文写代码给自己对模型训练上的感悟。还需要一定的代码功底去实现各种功能。我主要是在kaggle的水稻检测比赛学到很多东西。国内竞赛一般代码不会开源。大家常去kaggle和cv的最新论文多留意比赛之类的。这个新颖的比赛其实更重要的起到一个启示的作用。现有的目标检测框架如果说是要类比人的话，只是最简单的认识大概物体轮廓。我觉得是可以利用深度学习从目标检测的“认识”->“理解”。举个简单例子，火，在森林中的火和在火炉中的火意义完全不同。目前的只能检测出是火，不能知道它在这个位置所存在的意义。那么我们其实就可以顺着这个思路继续深入研究。这个研究的目的就是让视觉更加智能。会让目标检测的应用场景更加广阔。这个课题我会上研究生在深入研究。