【复现】MSQNet

竹月影

已于 2023-12-01 10:49:47 修改

阅读量464

点赞数 11

文章标签： pytorch

于 2023-12-01 10:46:39 首次发布

本文链接：https://blog.csdn.net/weixin_43352991/article/details/134728869

版权

本文介绍了如何复现MSQNet论文中的多模态查询动作识别方法，包括文件夹结构组织、环境设置（如升级PyTorch版本和安装缺失库）、数据集处理（生成轻量级注释文件）、配置文件修改以及在无网络条件下本地加载预训练模型的过程。

摘要由CSDN通过智能技术生成

文章目录

前言

前言

复现MSQNet
文章：MSQNet: Actor-agnostic Action Recognition with Multi-modal Query

文件夹组织形式

/root/autodl-tmp/

Datasets
    AnimalKingdom（按照数据集原有的形式组织）
        action_recognition
            annotation
                train.csv
                val.csv
                train_light.csv（由train.csv生成）
                val_light.csv（由val.csv生成）
            dataset
                image
msqnet（从GitHub上下载的源码）

环境搭建

源码中未给出库的具体版本

pip install -r requirements.txt
安装requirements中缺少的库：pip install torchmetrics 和 pip install transformers
报错：torch forward() got an unexpected keyword argument 'tgt_is_causal'
解决：更新pytorch到2.1.0，pip install --upgrade torch torchvision torcheval

数据集处理

使用 lighter_annotations.py 生成新的注释文件train_light.csv和val_light.csv

修改代码中的文件路径
python utility/lighter_annotations.py

在这里插入图片描述

config修改

'path_dataset'：数据集路径
'epoch_start':0,  //开始轮数，原default=0
'epochs':100,  //总轮数，原default=100
'num_workers':4,  //原default=4
'batch_size':10,  //原default=32，使用云平台3090，设为16仍内存超出
'train':True,  //原default=0，test
'test_every':4,  //原default=5，每训练 test_every 轮计算1次map
# lr = 0.00001,  //参数在 models 文件中指定，故未在config中给出

本地加载预训练模型

云平台无法连接外网，访问不了https://huggingface.co

以tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-base-patch32")该行代码为例
打开https://huggingface.co/openai/clip-vit-base-patch32/tree/main，将页面中所有文件下载下来，保存到/root/.cache/huggingface/transformers下
然后指定路径、修改代码

在这里插入图片描述