行为识别系列：Win11系统下使用SlowFast训练AVA数据集

目标不愿意被检测

已于 2024-03-01 14:12:16 修改

阅读量1.9k

点赞数 20

分类专栏： mmaction 行为识别 slowfast 文章标签：深度学习 pytorch 人工智能

于 2023-12-20 20:45:16 首次发布

本文链接：https://blog.csdn.net/Yayisheng/article/details/135116428

版权

行为识别同时被 3 个专栏收录

4 篇文章 1 订阅

订阅专栏

mmaction

2 篇文章 0 订阅

订阅专栏

slowfast

2 篇文章 0 订阅

订阅专栏

本文主要讲述如何在Win11系统使用MMaction2框架下SlowFast网络进行AVA数据集的训练

一、环境准备

本文遵照官方教程进行环境准备，官方文档：安装 — MMAction2 1.2.0 文档

本人环境配置如下：python=3.8，cuda=11.1，torch=1.9.1+cu111，torchvision=0.10.1+cu111

conda create -n mmaction python=3.8 -y

pip install torch==1.9.1+cu111 torchvision==0.10.1+cu111 -f https://download.pytorch.org/whl/torch_stable.html

读者可根据自身需要，选择是否安装mmdet和mmpose

1、用mim安装 MMEngine、MMCV、MMDetection（可选）和 MMPose（可选）

pip install -U openmim
mim install mmengine
mim install mmcv
mim install mmdet
mim install mmpose

2、从源代码构建MMaction2

git clone https://github.com/open-mmlab/mmaction2.git
cd mmaction2
pip install -v -e .

3、检查是否安装正确

mim download mmaction2 --config tsn_imagenet-pretrained-r50_8xb32-1x1x8-100e_kinetics400-rgb --dest .

python demo/demo.py tsn_imagenet-pretrained-r50_8xb32-1x1x8-100e_kinetics400-rgb.py tsn_imagenet-pretrained-r50_8xb32-1x1x8-100e_kinetics400-rgb_20220906-2692d16c.pth demo/demo.mp4 tools/data/kinetics/label_map_k400.txt

如果安装正确，则会在终端看到前5个标签及其对应的分数：

二、数据集准备

在我的另外一篇博客讲过，如何下载及准备AVA数据集。

在YOWOv2框架下使用AVA数据集-CSDN博客文章浏览阅读134次。YOWO框架支持几种主流的数据集包括UCF101-24，AVA等，在之前的文章中已经介绍过UCF101-24复现过程及效果，这篇文章介绍个人复现AVA数据集的效果。https://blog.csdn.net/Yayisheng/article/details/134940573?spm=1001.2014.3001.5501读者亦可以运行mmaction2/tools/data/ava文件夹下脚本进行AVA数据集的下载和准备工作

三、代码修改

复制configs\detection\slowfast文件夹下的slowfast_kinetics400-pretrained-r50_8xb6-8x8x1-cosine-10e_ava22-rgb.py，改名为my_slowfast_kinetics400-pretrained-r50_8xb6-8x8x1-cosine-10e_ava22-rgb.py，并修改如下路径：

修改之后，可直接运行下方代码进行训练，本人训练设备（GTX3070，num_workers=2，batch_size=8），训练时间（eta）：190days（时间非常长，推荐使用服务器A100或者更好的显卡）

使用本地显卡推理一轮的效果如下：

{"lr": 0.0075278229742922215, "data_time": 0.26431573629379274, "grad_norm": 2.053718554973602, "loss": 0.33568896576762197, "recall@thr=0.5": 0.2808642089366913, "prec@thr=0.5": 0.364197313785553, "recall@top3": 0.5123457312583923, "prec@top3": 0.4567900002002716, "recall@top5": 0.7530864477157593, "prec@top5": 0.4222221374511719, "loss_action_cls": 0.33568896576762197, "time": 71.26748920679093, "epoch": 1, "iter": 20, "memory": 13673, "step": 20}