内容:传统Transformer模型在计算机视觉中的带来性能提升的同时,往往存在参数量大,模型计算复杂度高等问题。其中是由其多头注意力机制造成的,目前诸多有许多针对注意力的方法,其中采用稀疏性操作逐渐走向台前。例如:biformer中的双层路由实现更灵活的内容感知计算分配。
在城市道路交通环境中常常使用的是一种cnn结构的模型,或者是一些轻量化的trasformer模型,他们都具有模型参数量低,计算负担小的特点,应用到本地上进行实时语义分割则需要进行相应的操作,其中包括蒸馏、裁剪等操作。
在城市道路分割任务中目前存在对较小目标分割精度不够,物体分割边缘不清。CNN
模型往往难以解决上述问题,而transformer模型带来的代价往往是我们难以接受的,我们针对上述问题提出了这样的一个系统:基于Transformer模型下城市道路交通语义分割系统设计,目的是促进大模型在城市道路交通上实现分割精度提升和参数量的降低。该项目目前取得较好的结果。
1、cityscapes数据集分析处理
首先介绍:Cityscapes 是一个用于语义城市景观分割的广泛使用的数据集,同时他也是一个无人驾驶下图像语义分割主要数据集之一。它包含从50个不同城市采集的高分辨率图像,主要用于自动驾驶和计算机视觉研究。Cityscapes 数据集的主要任务是对城市场景中的每个像素进行分类,从而实现图像的逐像素注释。它提供了丰富的标签,包括道路、人行道、建筑物、交通标志、行人、车辆等。
首先我们针对Cityscapes进行数据上的增强,其中涉及到mmseg框架下的知识,还是比较便捷的一个框架。下面是数据处理的部分代码:
2、网络模型构建
该项目我们使用biformer作为我们的骨干网络,由于biformer网络的稀疏性从而使得网络的参数量较低较好的提取对于图像的最关键特征,从而提高准确性并减少计算负载。对于骨干网络具体可参考这篇博客 http://t.csdnimg.cn/h0uyV
我们的核心在于网络的特征融合,特征融合的结构通常是采用一种FPN的结构,目前fpn阶段的设计很多,然而这些设计并没有很好的处理捕获跨规模远程语义信息等问题。我们采用了一种多尺度卷积注意力机制用于捕获丰富的全局特征,之后并非采用自上而下的递归方式进行信息传递,这会造成信息的丢失和混叠效应,我们采用一种轻量级的卷积注意力用于语义对齐。训练过程中我们使用一张显卡进行训练对学习率等训练策略进行专门的修改,使得符合深度学习的模型训练规律。验证结果表现优秀!综合模型参数量和取得精度来说,明显优于多数主流模型。我们展示一组分割对比图其中左上原图,右上真实标签图,左下deepv3+,右下我们的模型:
图中小目标在分割中的效果相对于deepv3+更为优秀更加接近于原始图片。
3、系统测试
我们在本地服务器上对于我们设计的系统进行布置测试,参数量远远小于传统transformer大模型。并在一系列的对比实验中领先,最终取得超过80%的miou结果。由于项目成果产生的论文处于再投阶段,所以,具体结构我们将在论文录取后展示。