第十八届“挑战杯”-基于端云算力协同的疲劳驾驶智能识别-2023.03.28

最新推荐文章于 2024-06-12 15:00:08 发布

_腾飞

最新推荐文章于 2024-06-12 15:00:08 发布

阅读量2k

点赞数 5

分类专栏： # 比赛文章标签：人工智能计算机视觉华为云比赛

本文链接：https://blog.csdn.net/helloworld_fly/article/details/129919855

版权

比赛专栏收录该内容

5 篇文章 1 订阅

订阅专栏

nullhttps://competition.huaweicloud.com/information/1000041855/circumstance

时间

内容

主题：智能驾驶场景（疲劳/分神驾驶检测），利用端侧算力单元与云上算力中心协同，让车辆能够更准确更迅速的检测疲劳/分神驾驶，及时提醒司机，减少交通事故。

具体

参赛选手需要识别出驾驶过程中的闭眼、哈欠、打电话、左顾右盼等疲劳/分神行为，为了兼顾算法的精度和速度，参赛选手可以协同利用端侧设备和云侧平台的算力。

其中初赛阶段的判分在云侧进行，参赛选手必须基于华为云AI开发平台ModelArts开发，提交适配云侧ModelArts的算法包；

复赛与决赛阶段的判分在线下进行，参赛选手需要提交适配端侧设备的算法包 + 适配云侧ModelArts的算法包（若为纯端侧方案，则不需要云侧部分），以及方案介绍PPT等。

知识点

疲劳/分神驾驶行为的识别，会综合利用到计算机视觉领域的目标检测、关键点检测、图像分类等基础技术；为提升识别效率，也需要用到剪枝、量化、蒸馏、batch推理等模型方面的优化，以及异步、多线程、pipeline并行等应用层面的优化。因此，本次比赛会综合考察参赛选手的基础理论掌控、模型设计优化、应用开发优化等方面的能力。参赛选手可选用搭载OpenHarmony等系统的开发板、小车、摄像头等终端硬件来模拟车辆。

评分

大赛组委会将为参赛选手提供数据集（标注了行为类别的视频片段），选手需要根据自己选择的技术路线进行更精细的标注，再进行相应模型的训练和应用的开发。测试集为多段视频，选手提交的算法包需要以视频为单位输出对应的类别，每段视频输出一个结果，格式为json字符串，举例如下：

{

"result":

{

"category":0,

"duration":6000

}

其中，category为驾驶行为类别编号（见下表的数据说明），duration为算法推理耗时（单位为毫秒）。大赛组委会将在3月底提供baseline（包含文档以及代码），供参赛选手参考。

数据

领域调研

1. 基于2D卷积神经网络（CNN）的方法（2014-2016年）：这些方法将视频帧作为输入，使用2D卷积神经网络对每个帧进行分类，然后将分类结果组合成整个视频的分类结果。这些方法的代表包括C3D和Two-Stream CNN。

2. 基于3D卷积神经网络（CNN）的方法（2017年以后）：这些方法直接将视频作为输入，使用3D卷积神经网络对整个视频进行分类，可以捕捉视频中的时间信息。这些方法的代表包括I3D和SlowFast。

3. 基于注意力机制的方法（2018年以后）：这些方法通过学习注意力权重来关注视频中的重要部分，从而提高分类性能。这些方法的代表包括Non-Local和Self-Attention.

4. 基于图神经网络的方法（2019年以后）：这些方法将视频转化为图形结构，然后使用图神经网络进行分类。这些方法的代表包括ST-GCN和TSM。

这些方法在视频动作分类领域取得了很大的成功，未来还有很多研究方向，如如如何提高模型的泛化能力和鲁棒性、如何应对复杂场景等。

ChatGPT询问

可以基于googlesholar和GitHub给我推荐重要的论文和开源代码

**chatgpt**: 当然可以，以下是一些值得关注的论文和开源代码：

论文：

1. Tran, Du, et al. "Learning spatiotemporal features with 3d convolutional networks." ICCV 2015.

2. Carreira, Joao, and Andrew Zisserman. "Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset." CVPR 2017.

3. Feichtenhofer, Christoph, et al. "SlowFast networks for video recognition." ICCV 2019.

4. Wang, Limin, et al. "Temporal segment networks: Towards good practices for deep action recognition." ECCV 2016.

5. Wang, Xiaolong, et al. "Non-local neural networks." CVPR 2018.

开源代码：

1. C3D：https://github.com/facebookarchive/C3D

2. I3D：https://github.com/deepmind/kinetics-i3d

3. SlowFast：https://github.com/facebookresearch/SlowFast

4. TSM：https://github.com/mit-han-lab/temporal-shift-module

5. ST-GCN：https://github.com/yysijie/st-gcn

这些论文和代码都是视频动作分类领域的重要贡献，值得学习和借鉴。

**user**: 可以给我推荐一些更新、更近期的视频动作分类的研究工作吗

**chatgpt**: 当然可以，以下是一些近期的视频动作分类的研究工作：

1. "Rethinking Spatial Dimensions of Convolutional Filters for Video Classification"，CVPR 2021.

2. "Dual-stream Network with Multi-scale Attention for Action Recognition"，TIP 2021.

3. "Gated Spatio-Temporal CNNs for Video Classification"，CVPR 2020.

4. "Learning Cross-Modal Temporal Representations from Unpaired Data"，CVPR 2021.

5. "Multi-modal and Multi-view Models for Video Captioning and Retrieval"，TIP 2021.

这些研究工作都是近年来在视频动作分类领域取得的重要进展，值得关注和学习。

**user**: 都有开源代码吗

**chatgpt**: 有的研究工作提供了开源代码，有的则没有。以下是提供了开源代码的研究工作：

1. "Rethinking Spatial Dimensions of Convolutional Filters for Video Classification"：https://github.com/okankop/Revisiting-Spatial-Dimensions-for-Video-Classification

2. "Dual-stream Network with Multi-scale Attention for Action Recognition"：https://github.com/Anfany/DMA-Net

3. "Gated Spatio-Temporal CNNs for Video Classification"：https://github.com/zhengyima/Gated-ST-CNN

4. "Multi-modal and Multi-view Models for Video Captioning and Retrieval"：https://github.com/yytzsy/VMZ

这些开源代码提供了实现论文方法的参考，可以帮助研究者更好地理解和复现论文中的方法。