Datawhale AI夏令营--从零入门多模态大模型数据合成Task1

报名赛事

比赛相应连接:
天池Better Synth多模态大模型数据合成挑战赛
在这里插入图片描述

注意事项

本赛事会消耗大量的算力,光是跑baseline就需要消耗比较长的时间,需要有一定的心理准备

创建实例

使用AutoDL算力云
在这里插入图片描述
选择租用新实例

  • 选择 [北京B区]
  • 挑选120GB内存,可以进行扩容的主机
  • 在扩容的选项当中选择扩容100G
  • 在选择社区镜像时要注意查找Better-Synth
  • 创建实例
    ps:最好大家在创建这个实例的时候最好环境选择一样的社区镜像,不然后续相对来说会比较麻烦
    在这里插入图片描述

跑baseline(预计时间300分钟)

改用无卡模式开机

关机之后选择无卡模式开机,然后点击jupyterLab进入到环境当中

在这里插入图片描述

创建非指定镜像

这里讲一下如果创建了非指定镜像的话,就要注意了,会有以下这几个要求:
运行如下命令

conda create -n dj python=3.10

conda init bash  
source ~/.bashrc

bash install.sh #大概需要1小时

下载赛事所需文件包

conda activate dj
cd autodl-tmp/
git clone https://www.modelscope.cn/datasets/Datawhale/better_synth_baseline_autoDL.git

这几行的要求就是先激活这个dj的虚拟环境,然后跳转到autodl-tmp/目录下进行克隆赛事的包
可以通过ls命令查看到是否有所需要的文件夹
在这里插入图片描述

下载模型,数据集以及依赖软件

运行如下命令即可

apt update
apt install axel zip file
pip install modelscope

在这里插入图片描述

下载模型和相关数据集

在终端当中执行如下命令

cd better_synth_baseline_autoDL
bash download.sh  ###大概需要50分钟

在这里插入图片描述

下载BLIP图片描述模型

执行完上述步骤之后运行该命令

python download_blip.py

数据处理与合成

关机,然后进行带卡开机
如果发现GPU不足的话最好要进行以下克隆,这里需要注意的是克隆的话要带上数据盘,不然就没有办法进行数据处理了
在这里插入图片描述
复制如下命令,在终端当中运行

conda activate dj
cd autodl-tmp/better_synth_baseline_autoDL
dj-process --config ./image_split_10.yaml
dj-process --config ./image_captioning_10.yaml

在这里插入图片描述

  • 安装 flash-attn
    执行如下命令
cd toolkit/training
pip install -e .
pip install flash-attn --no-build-isolation
cd ..

在这里插入图片描述

推理和评测

在终端当中运行并执行如下命令

bash train_mgm_2b_stage_one_card.sh   ### 大概需要3小时

下面是相应的运行内容的展示
在这里插入图片描述
运行完成结果如下:
在这里插入图片描述

打包输出运行结果

cd ../submit

cp -r /root/autodl-tmp/better_synth_baseline_autoDL/solution .

cp -r /root/autodl-tmp/better_synth_baseline_autoDL/output/eval_results output/

cp -r /root/autodl-tmp/better_synth_baseline_autoDL/output/train.sh output/

cp /root/autodl-tmp/better_synth_baseline_autoDL/output/training_dirs/MGM-2B-Pretrain-*/pretrain.log output/training_dirs/MGM-2B-Pretrain-image_recaption/

cp /root/autodl-tmp/better_synth_baseline_autoDL/output/training_dirs/MGM-2B-Finetune-*/finetuning.log output/training_dirs/MGM-2B-Finetune-image_recaption/


zip -r submit.zip solution output

打开submit文件夹之后下载即可
在这里插入图片描述
关闭实例(关机!关机!关机!),免得出现不必要的费用

提交结果

比赛官网提交运行结果
在这里插入图片描述
查看成绩
在这里插入图片描述

  • 15
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值