CV——day81(1) 读论文: 基于自监督一致性学习的驾驶场景交通事故检测(有源码)

基于自监督一致性学习的驾驶场景交通事故检测

Traffic Accident Detection via Self-Supervised Consistency Learning in Driving Scenarios

模型叫做SSC-TAD,包括外观,动作和上下文一致性学习。

代码地址:GitHub - JWFangit/LOTVS-DADA: Driver Attention Prediction in Accidental Scenarios

http://t.csdn.cn/4VzF0

I. INTRODUCTION

在本工作中,我们吸收了这两种框架的优点,进一步提出了TAD框架,将daschcam视频帧所捕获的视觉场景上下文一致性纳入其中。其主要表述是基于正常的驾驶状态服从道路参与者之间相对规则的空间关系结构,事故对象通常涉及空间关系结构的突然或不规则变化。

III. OUR APPROACH

我们从帧外观一致性、目标运动一致性和场景上下文一致性三个方面对交通事故检测进行建模(the consideration of frame appearance consistency, object motion consistency and scene context consistency)。因此,本文的交通事故检测的目标是定位**“异常到事故”(anomaly-to-accident, A2A)**的时间窗口,在该时间窗口中,一旦发生事故的物体出现在场景中,A2A的起始时间就会被激活。根据A2A的定义,本工作可适用于早期交通事故检测(有待实验验证)。

图2展示了自监督一致性学习框架的流程。

A. 帧预测

image-20230302130624681

如图3所示,其中包括两支帧编码器、光流运动图像编码器和一条未来帧解码器路径。φI是RGB帧和光流图像的编码共享权值。

B. 物体位置预测

image-20230302130916001

目标位置预测网络的目的是给出目标在未来帧中的位置,这意味着在测量交通事故发生程度时具有运动一致性特征。

C. 驾驶场景上下文表示(DSCR)

image-20230302130945961

在这项工作中,DSCR模型的场景关系内的视频帧。为了抵抗误检测道路参与者的影响,本文提取了参与者内部的信息关系以及整个视频帧,用于交通事故检测。为此,我们在特定道路参与者和整个框架的特征嵌入上引入了图形表示。

D. 协作多任务一致性学习

协作多任务一致性学习的损失函数定义为:

image-20230302131103565

生成性损失和区别性损失记为:

image-20230302131127409

为了优化式8,交替训练术语A和B。这个设置意味着我们希望训练G时MSE(gp,π T+1, gr,π−1 T+1)为真,训练D时MSE(gp,π T+1, gr,π−1 T+1)为假。

E.交通事故判定

本工作设计了一种简单而高效的融合策略,如图6所示,将一致性度量结合起来,表示为:

image-20230302131252568

三种一致性度量的融合策略。“归一化”的运算用蓝色表示,为max-min归一化,取值范围为[0,1]。线的粗细表示融合的一致性信息的量。

image-20230302131211804

Eq. 10背后的含义是,因为帧预测模块的学习是由原始视频帧监督的,没有标注错误。

IV. EXPERIMENTS AND DISCUSSIONS

A. Dataset

在本工作中,我们利用两个具有挑战性的数据集,即我们之前收集的AnAn事故检测(A3D)数据集[3]和DADA-2000[14]作为比较基准。A3D和DADA-2000的视频采集自各个网站,每个视频的摄像头设置或对准方式都不一样。

image-20230302103759965

A3D和DADA-2000数据集的典型样本帧,图中显示了视频的事故类别。Ego-” and “/Ego-”是指涉及到或不涉及到自我-汽车的范畴。

D. Ablation Studies

结果见表二。

image-20230302104039062

我们发现卷积lstm光流是本工作的重要组成部分。GRU优于LSTM,但性能差距最小。此外,GRU中的参数比LSTM中的参数要少。

E. Overall Performance Evaluation

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WsPcHbi3-1677734411728)(https://gitee.com/EmptyHouse/note-picture/raw/master/img/image-20230302104202884.png)]

表格三是对比结果。从这个表中,我们可以看到竞争对手在我们的DADA-2000数据集上的性能要弱于在A3D数据集上的性能,特别是在AP上

image-20230302104258237

image-20230302104311955

image-20230302104328249

图9给出了交通事故发生程度的几个典型序列,前两行取自A3D数据集,其余为DADA数据集,其中红色方框表示事故所涉及的对象。说明我们的SSC-TAD能够较好地区分出事故和非事故情况。

I. TAD(交通事故检测)帧预测的进一步分析

如图12所示,所提方法仍有改进空间,生成了一些典型的失效案例。

image-20230302104704967

从图12可以看出,物体尺度和光照条件是检测失败的主要因素。尺度过大或过小都会导致目标位置预测和帧预测模块无法有效发现目标

V. CONCLUSION

本文吸收了前人的帧预测和位置预测的优点,提出了一种通过学习连续帧内外观、运动和上下文关系一致性的交通事故检测方法,并采用生成式和对抗性训练策略的多任务一致性学习框架来实现。我们还设计了一种融合外观、运动和上下文一致性测量的新策略。基于我们之前收集的两个具有挑战性的数据集,即AnAn交通事故检测(A3D)和DADA-2000的广泛实验。通过与几种最新方法的比较,验证了该方法的优越性。此外,在我们的DADA-2000数据集上,我们分析了每种方法在不同交通事故行为类型、不同事故类别以及涉及或不涉及自我车的情况下的性能。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
基于深度学习计算机视觉综合应用是一种利用深度学习算法,如卷积神经网络(CNN)和生成对抗网络(GAN),对自选图像或视频数据进行处理和分析的方法。 首先,我们可以利用深度学习算法CNN对图像进行分类。通过训练一个CNN模型,可以用它来对图像中的物体进行自动检测和分类。例如,可以训练一个CNN模型来识别猫和狗的图像,然后用这个模型来对输入图像进行分类,判断图像中是否出现了猫或狗。 其次,利用深度学习算法GAN,我们可以生成逼真的图像。GAN模型由一个生成器和一个判别器组成。生成器模型接收随机噪声输入,并尝试生成逼真的图像,而判别器模型则评估生成的图像与真实图像的区别。通过对两个模型进行对抗训练,生成器模型可以生成越来越逼真的图像。这个应用可以用于生成虚拟的人脸、场景等图像数据,用于电影特效、游戏设计等领域。 此外,深度学习算法还可以用于图像分割。图像分割是将图像划分为具有语义信息的各个部分或对象的过程。通过训练一个CNN模型,可以将其应用于图像分割任务,将图像中不同的目标分割开。这个应用可以应用于医学影像分析、自动驾驶等领域。 对于视频数据,我们可以利用深度学习算法对视频进行目标跟踪。通过训练一个CNN模型,我们可以跟踪视频中的特定目标,在视频中的连续帧中定位和追踪目标的位置。这个应用可以用于视频监控、智能交通等领域。 综上所述,基于深度学习计算机视觉综合应用可以通过利用CNN和GAN等深度学习算法对自选图像或视频数据进行处理和分析,实现图像分类、图像生成、图像分割和目标跟踪等功能,应用于许多领域,如医学、娱乐、智能交通等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值