Datawhale AI夏令营第四期·从零入门多模态大模型数据合成 task01笔记

浩宇(๑•̀ω•́๑)

已于 2024-08-13 23:55:04 修改

阅读量645

点赞数 22

文章标签：笔记人工智能深度学习 python jupyter 开源

于 2024-08-13 23:44:43 首次发布

本文链接：https://blog.csdn.net/qq_62695659/article/details/141171979

版权

5.下载多模态base模型及数据集 & 相关依赖软件（大概需要60分钟）

（1）安装必要工具

（2）下载模型和相关数据集（约50分钟左右）

（3）下载BLIP图片描述模型（约20分钟左右）

6.数据处理与合成（大概需要1小时）

（1）关机，重新带卡开机！

（2）数据处理与合成（大概需要1小时）

7.执行模型训练 & 推理评测（大概需要3～4小时）

（1）安装 flash-attn

（2）开始训练 & 推理评测！（大概需要3~4小时）

8.打包构建符合提交要求的zip文件

一、报名赛事

赛事链接：https://tianchi.aliyun.com/competition/entrance/532251https://tianchi.aliyun.com/competition/entrance/532251

图1：报名步骤

图2：报名成功

二、跑通300分钟baseline！😊

1.在AutoDL创建实例

链接：

https://www.autodl.com/console/instance/listhttps://www.autodl.com/console/instance/list

温馨提示：由于baseline运行需求，我们需要

额外扩充磁盘空间，至少需要增加100G
在后面的模型训练和评测阶段，需要跑大概3小时，至少需要100G+以上的内存
- 方案一：使用单卡120G内存的实例规格（下面以这个规格为例）

需提前充值大概10~20元，否则无法创建实例，以及避免由于欠费被停止实例。

2.租用服务器

图3：租用新实例

图4：选择机型

北京B区
内存120GB
可扩容（至少100GB）

图5：后续配置

选择需要扩容，输入100
选择社区镜像，输入“better”，找到“Better-Symth”的镜像
点击“立即创建”

3.切换开机模式（改为“无卡模式开机”）

图6：关机

图7：无卡模式开机

图8：进入JupyterLab环境

4.下载赛事所需文件包

复制如下命令，在终端中执行：

conda activate dj
cd autodl-tmp/
git clone https://www.modelscope.cn/datasets/Datawhale/better_synth_baseline_autoDL.git

图9：下载文件包

5.下载多模态base模型及数据集 & 相关依赖软件（大概需要60分钟）

（1）安装必要工具

复制如下命令，在终端中执行:

apt update
apt install axel zip file
pip install modelscope

（2）下载模型和相关数据集（约50分钟左右）

执行完成以上步骤后，复制如下命令，在终端中执行：

cd better_synth_baseline_autoDL
bash download.sh  ###大概需要50分钟

（3）下载BLIP图片描述模型（约20分钟左右）

执行完成以上步骤后，复制如下命令，在终端中执行：

python download_blip.py

6.数据处理与合成（大概需要1小时）

（1）关机，重新带卡开机！

（2）数据处理与合成（大概需要1小时）

复制如下命令，在终端中执行：

conda activate dj
cd autodl-tmp/better_synth_baseline_autoDL
dj-process --config ./image_split_10.yaml
dj-process --config ./image_captioning_10.yaml

7.执行模型训练 & 推理评测（大概需要3～4小时）

（1）安装 `flash-attn`

复制如下命令，在终端中执行：

cd toolkit/training
pip install -e .
pip install flash-attn --no-build-isolation
cd ..

（2）开始训练 & 推理评测！（大概需要3~4小时）

复制如下命令，在终端中执行：

bash train_mgm_2b_stage_one_card.sh   ### 大概需要3小时

8.打包构建符合提交要求的zip文件

复制如下命令，在终端执行，然后下载submit.zip文件！

better_synth_root_dir=/root/autodl-tmp

cd ../submit

cp -r /root/autodl-tmp/better_synth_baseline_autoDL/solution .

cp -r /root/autodl-tmp/better_synth_baseline_autoDL/output/eval_results output/

cp -r /root/autodl-tmp/better_synth_baseline_autoDL/output/train.sh output/

cp /root/autodl-tmp/better_synth_baseline_autoDL/output/training_dirs/MGM-2B-Pretrain-*/pretrain.log output/training_dirs/MGM-2B-Pretrain-image_recaption/

cp /root/autodl-tmp/better_synth_baseline_autoDL/output/training_dirs/MGM-2B-Finetune-*/finetuning.log output/training_dirs/MGM-2B-Finetune-image_recaption/

zip -r submit.zip solution output

浩宇(๑•̀ω•́๑)

关注

22
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营第四期·从零入门多模态大模型数据合成 task01笔记

在后面的模型训练和评测阶段，需要跑大概3小时，至少需要100G+以上的内存。，否则无法创建实例，以及避免由于欠费被停止实例。：由于baseline运行需求，我们需要。图8：进入JupyterLab环境。复制如下命令，在终端执行，然后下载。的实例规格（下面以这个规格为例）至少需要增加100G。
复制链接

扫一扫