ADAPT: Action-aware Driving Caption Transformer(模型训练+推理)

概述

ADAPT是一种基于Transformer的端到端模型,它为自动驾驶车辆的控制和动作提供了用户友好的自然语言叙述和推理。

环境准备

方式一:通过conda虚拟环境安装

见ADAPT原项目中readme。

方式二:Docker

#step1:一键安装docker
#参考:https://blog.csdn.net/qq_27865227/article/details/127246251
wget http://fishros.com/install -O fishros && . fishros

#step2:拉取docker镜像
docker pull jxbbb/adapt:latest

#step3:运行docker镜像(即readme中的命令)
sh launch_container.sh

 文件下载

数据集下载

下载地址(readme中提供):百度网盘 请输入提取码

下载后解压至ADAPT根目录。

其他文件准备

step1:下载文件

链接: https://pan.baidu.com/s/1qrRl-6U-H8Bhpk7FljOVKg?pwd=sskj 提取码: sskj

step2:将下载好的文件复制进工程

(1)准备ADAPT-main/checkpoints文件夹
mkdir ADAPT-main/checkpoints
cp download/basemodel-20230828T014411Z-002/basemodel ADAPT-main/checkpoints

复制后文件目录如下:

(2)准备ADAPT-main/models文件夹
cp download/models-20230828T014653Z-001/models ADAPT-main
cp download/basemodel-20230828T014411Z-002/basemodel ADAPT-main/models

复制后文件目录如下:

(3)准备 ADAPT-main/src/evalcap文件夹
sudo rm -r ADAPT-main/src/evalcap
cp download/evalcap/src/evalcap ADAPT-main/src

复制后文件目录如下:

step3:工程整体目录结构

 模型训练

# CSP+DCG联合训练
sh scripts/BDDX_multitask.sh

# CSP单独训练
sh scripts/BDDX_only_signal.sh

# DCG单独训练
sh scripts/BDDX_only_caption.sh

若是单卡训练,BDDX_multitask.sh需要进行如下修改(BDDX_only_signal.sh和BDDX_only_caption.sh同理):

# CUDA_VISIBLE_DEVICES=4,5,6,7 \
# NCCL_P2P_DISABLE=1 \
# OMPI_COMM_WORLD_SIZE="4" \
# python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 --node_rank=0 --master_port=45978 src/tasks/run_adapt.py \
CUDA_VISIBLE_DEVICES=0 \
python src/tasks/run_adapt.py \
        --config src/configs/VidSwinBert/BDDX_multi_default.json \
        --train_yaml BDDX/training_32frames.yaml \
        --val_yaml BDDX/testing_32frames.yaml \
        --per_gpu_train_batch_size 8 \
        --per_gpu_eval_batch_size 16 \
        --num_train_epochs 1 \
        --learning_rate 0.0002 \
        --max_num_frames 32 \
        --pretrained_2d 0 \
        --backbone_coef_lr 0.05 \
        --mask_prob 0.5 \
        --max_masked_token 45 \
        --zero_opt_stage 1 \
        --mixed_precision_method deepspeed \
        --deepspeed_fp16 \
        --gradient_accumulation_steps 4 \
        --learn_mask_enabled \
        --loss_sparse_w 0.1 \
        --use_sep_cap \
        --multitask \
        --signal_types course speed \
        --loss_sensor_w 0.05 \
        --max_grad_norm 1 \
        --output_dir ./output/multitask/sensor_course_speed2

模型推理

sh scripts/inference.sh
# 得到如下输出说明推理成功:Prediction: The car is stopped because the traffic light turns red.

目前只能推理DCG部分,CSP分支推理无输出结果,作者github已回复,不久会后释放这部分代码。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
“你只需要90000个参数即可适应光:一款轻量级的Transformer” Light:一款轻量级的Transformer是指在模型参数数量较少的情况下,实现了对光照的适应能力。一般来说,Transformer模型通常需要巨大的参数数量来实现高质量的自然语言处理任务。然而,对于特定的任务,比如对光照的适应,研究人员最近提出了一种轻量级的Transformer模型,只需要90000个参数即可实现。 这个模型的轻量级设计主要集中在两个方面:模型架构和参数数量。首先,模型架构方面,轻量级Transformer采用了一种精简的结构,去掉了一些传统Transformer中的冗余模块。其次,在参数数量方面,研究人员通过对参数维度和层数进行有效的优化,实现了模型的轻量化。因此,这个轻量级Transformer仅需要90000个参数,就能够达到对光照的适应能力。 这个轻量级Transformer的适应光照的能力主要体现在两个方面:特征提取和模型自适应。首先,在特征提取方面,轻量级Transformer能够从输入的光照图像中提取出有效的特征表示,用于后续的任务处理。其次,在模型自适应方面,轻量级Transformer能够动态地学习并调整网络参数,从而更好地适应不同光照条件下的输入数据,提高模型的性能。 总之,通过轻量级的设计和精简的参数数量,这个仅需要90000个参数的轻量级Transformer模型能够有效地适应光照。这种模型设计的优势在于在保持良好性能的同时,减少了模型的复杂性和计算资源的需求,为光照相关任务的研究和应用提供了一种新的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值