FLIR ADAS数据集及YOLOv5训练

_helen_520

已于 2023-09-08 10:46:47 修改

阅读量908

点赞数

文章标签： YOLO 深度学习

于 2023-09-06 09:29:14 首次发布

本文链接：https://blog.csdn.net/haronchou/article/details/132691034

版权

参考资料：

训练结果

训练过程就不叙述了，参考上面的博客即可
训练了299个epoch，但是第35个epoch之后的100个epoch都没有在mAP上进行增加，所以在135epoch时停止
- val_obj_loss在后期上升了，这个值得关注一下；
- 毕竟只有obj_loss是包含了所有样本的，bbox和clas_loss只有正样本的。
- val_loss上升，说明模型过拟合了！
关于loss的计算部分：box * 0.05 + obj * 1 + cls * 0.5
- 所以box的实际loss是很大的
- obj就是原来的大小，这样的权重，让loss更多的去解决obj的问题，减小box的比重
- cls的loss是0.5，实际上对于class的分类损失，似乎不是很大。
- 后面box loss还在下降，但obj_loss在上升，意味着什么？
  - 所有的anchor里面，bce_loss，要看这个loss的占比，肯定负样本是很多的；anchor大部分是负样本；
  - 负样本的obj_gt是0，正样本的obj_gt是IoU值
  - 如果负样本loss增加了，说明负样本的特征训练的不稳定！正样本的特征已经在稳定了！因为正样本的bbox loss这些稳定的下降，说明正样本特征相关的分类器和特征提取是稳定的。负样本的部分根本就没激活。这个可以通过分析模型的反应来获得insight的，可以去证实我的猜想的。
    - 猜想：obj_loss跳动和不稳定，以及过拟合，都是因为负样本的特征的提取过程不稳定！这个可以通过看正样本和负样本的obj提取的特征纬度的变化是否一致来体现
    - 猜想：负样本多样性，训练不稳定，原因是啥？又怎么解决？
      - 就是训练过程没有见过新的负样本导致的！
      - 网络没有见过新的负样本，增加了loss；说明模型只拟合了自己的负样本，只能说明其负样本见的不多！

训练验证集

重要的是：时间序列类别的分割数据，需要分时间段来，不能随机采样！
FLIR的分割数据集的思路是正确的，所以需要重新训练
然后有baseline的，再搜集一些填入表格
标签问题的处理可以参考：Faster RCNN训练FLIR红外线数据集_flir数据集_Fighting_1997的博客-CSDN博客

『博客1:』：也强调一下，对于这样的检测结果，确实是让我出乎意料，能够有效的在夜间行车，检测效果相比RG图像有很不错的提升，从结果中也可以看出网络是深入地进行了单通道图像的学习，也将我的顾虑给打消掉了。

参考1的博客，看数据采集的具体信息

使用新版FLIR (FLIR_ADAS_v2) 训练Faster RCNN模型_Chi_XU_的博客-CSDN博客

2022.1.19 FLIR发布了ADAS_V2的数据集，类别更多，数据也更多。
链接: https://pan.baidu.com/s/1ooLmEm39Y_LSinU860Zj1w?pwd=3cp3

共14,000张图像，其中10,000张来自短视频片段，另外4,000张BONUS图像来自一段140秒视频
以30Hz帧率记录。数据集序列以2帧/秒或1帧/秒速率采样。视频注释以30帧/秒记录。
共计10,228帧，其中9,214帧带边界框。
人：28151个bbox
car：46692
自行车：4457
狗:240
其他车辆： Other Vehicle - large trucks, boats, and trailers. 2228
驾驶环境：11月至5月期间日间（60%）和夜间（40%）晴到多云天气行驶在加利福尼亚州圣巴巴拉市街道和公路上。
IR Tau2 640×512，13mm f/1.0（HFOV 45°，VFOV 37°）FLIR BlackFly（BFS-U3-51S5C-C）1280×1024，Computar 4-8mm f/140-1,600万像素镜头（视场角设置为匹配Tau2）

注释者被指示使边界框尽可能紧密。省略了对象的小部分（例如四肢）的紧密边界框比更宽的边界框更受青睐。个人配饰不包含在人物的边界框中。
当发生遮挡时，仅注释对象的非遮挡部分。
对于人和狗来说，与身体的其他部位相比，头部和肩膀更适合包含在边界框中。当遮挡仅允许物体的部分肢体或其他次要部分可见时，它们不会被注释。
车轮是自行车类别的重要组成部分。通常被骑车人遮挡的自行车部件（例如车把）不包含在边界框中。骑自行车的人与自行车分开注释。当对象被遮挡分割时，会为对象的两个可见部分提供两个单独的注释。

文件夹结构由三个文件夹组成，每个文件夹有五个子文件夹。对于采样图像，已通过两个子文件夹（标记为“train”和“val”）创建了建议的训练和验证集。整个视频被分配到建议的训练集中或验证集中。
• 视频：包含一个 144 秒的视频，其中的图像具有唯一一致的标识符（1 到 4224）
• 训练：包含 8,862 个采样图像，并具有唯一一致的标识符号（1 到 8,862）
• val：包含 1,366 个采样图像，并具有唯一一致的标识符号（8,863 到 10,228）

训练和验证数据的基线准确性是使用专为 512 X 512 图像设计并在 MSCOCO 数据上进行预训练的 RefineDetect512 神经网络建立的（https://arxiv.org/pdf/1711.06897.pdf 和 https://github.com/ sfzhang15/RefineDet）。
基础神经网络在训练文件夹中的 8 位热图像和注释上进行训练。没有使用测试数据。验证数据的所有类别的 mAP IoU(0.5) 达到 0.587。 http://cocodataset.org/#detection-eval 用于准确性评估标准。 mAP 得分针对人物 (0.794)、自行车 (0.580) 和汽车 (0.856) 类别获得。
baseline是RefineDetect512：
- val: all mAP IoU(0.5)=0.587 我是说，为啥我那里的acc达到了90%+，不科学的！！！ 这个基线只有58.7%，必须要超越
- val:People (0.794), Bicycles (0.580), and Cars (0.856) categories.

文件结构中使用以下子文件夹：
• Annotated_ Thermal_8_bit：该文件夹包含经过处理的8 位热数据，以将注释文件夹中的注释边界框覆盖在其上。
• thermal annotations.json：这些注释通常采用MSCOCO 注释样式格式。对于图像和单独的注释，coco 中不存在的附加数据已添加到称为额外信息的字段中。
• Thermal_16_bit 14 位、640 X 512 热图像，由FLIR Tau2 热像仪采集，未应用自动增益控制(AGC)。图像采用 16 位 .tiff 格式。可以从以下网址获取一套能够查看 16 位图像的工具：https://imagej.net
• Thermal_8_bit 8 位、应用 AGC、.jpeg 格式的图像，在其他方面与热图像中的图像相同

• RGB：8 位RGB（三通道）图像。请注意，训练中的 499 个图像、验证中的 109 个图像和视频中的 29 个图像没有 RGB 对应图像。图像分辨率通常为 1600 X 1800，但有些图像具有不同的分辨率，包括 480 X 720、1536 X 2048 和 1024 X 1280。

对于所有图像，车牌都进行了一些最小程度的模糊处理，以使它们难以辨认。在 RGB 中，一些最小的模糊也应用于面部。

配准框：红外框标记到RGB上

FLIR 热成像数据集是通过安装在车辆上的 RGB 热像仪获取的，并为 14,452 个热图像创建了注释。它主要是在 11 月至 5 月期间在美国加利福尼亚州圣巴巴拉的街道和高速公路上拍摄的，白天和晚上的天空条件都晴朗。基于 COCO 注释方案的热图像注释。但是，不存在相应可见图像的注释。为了分析目标检测的夜间性能，在白天和夜间场景的可见光谱中拥有相应的带注释图像是绝对必要的。 **我们构建了一个基于定制点的对应生成器，并利用 8 点单应法生成从热光谱到可见光谱的对应关系。** 使用此类方法，我们还能够将注释转换为可见空间，并生成约 8000 个训练图像和 1247 个验证图像，其中夜间与白天分为 42-58 个图像。在我们的其余工作中，我们将此转换后的数据集称为 FLIR RGB 数据集。**图 1 显示了边界框从热图像到 RGB 域中相应配准图像的转换**。作为 FLIR 数据集一部分的输入图像是未校正的图像，并且可以看到由于镜头造成的轻微径向畸变。我们技术的缺点是可以注册更靠近中心的点，但是，远离中心的径向点不能很好地对齐。

_helen_520

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
FLIR ADAS数据集及YOLOv5训练

请注意，训练中的 499 个图像、验证中的 109 个图像和视频中的 29 个图像没有 RGB 对应图像。• Annotated_ Thermal_8_bit：该文件夹包含经过处理的8 位热数据，以将注释文件夹中的注释边界框覆盖在其上。对于所有图像，车牌都进行了一些最小程度的模糊处理，以使它们难以辨认。• Thermal_8_bit 8 位、应用 AGC、.jpeg 格式的图像，在其他方面与热图像中的图像相同。• 视频：包含一个 144 秒的视频，其中的图像具有唯一一致的标识符（1 到 4224）
复制链接

扫一扫