赛事简介
天池Better Synth多模态大模型数据合成挑战赛是Datawhale 2024年AI夏令营第四期的学习活动
本赛事需要耗费大量算力,整个流程可能需要5小时。
第一步 创建实例
第二步 下载赛事所需文件包
conda activate dj
cd autodl-tmp/
git clone
https://www.modelscope.cn/datasets/Datawhale/better_synth_baseline_autoDL.git
第三步 下载多模态base模型及数据集 & 相关依赖软件
1、安装必要工具
apt update
apt install axel zip file
pip install modelscope
2、下载模型和相关数据集
cd better_synth_baseline_autoDL
bash download.sh ###大概需要50分钟
3、下载BLIP图片描述模型
python download_blip.py
第四步 数据处理与合成
conda activate dj
cd autodl-tmp/better_synth_baseline_autoDL
dj-process --config ./image_split_10.yaml
dj-process --config ./image_captioning_10.yaml
第五步 执行模型训练 & 推理评测
bash train_mgm_2b_stage_one_card.sh ### 大概需要3小时
第六步 打包
better_synth_root_dir=/root/autodl-tmp
cd ../submit
cp -r /root/autodl-tmp/better_synth_baseline_autoDL/solution .
cp -r /root/autodl-tmp/better_synth_baseline_autoDL/output/eval_results output/
cp -r /root/autodl-tmp/better_synth_baseline_autoDL/output/train.sh output/
cp /root/autodl-tmp/better_synth_baseline_autoDL/output/training_dirs/MGM-2B-Pretrain-*/pretrain.log output/training_dirs/MGM-2B-Pretrain-image_recaption/
cp /root/autodl-tmp/better_synth_baseline_autoDL/output/training_dirs/MGM-2B-Finetune-*/finetuning.log output/training_dirs/MGM-2B-Finetune-image_recaption/
zip -r submit.zip solution output
第七步 提交结果
https://tianchi.aliyun.com/competition/entrance/532251/submission/1335