DataWhale AI夏令营 【从零入门多模态大模型数据合成】 环境搭建与baseline跑通

一、概要

第一次接触多模态大模型数据合成,在环境搭建和baseline跑通上遇到了诸多问题,在多位助教的帮助下,终于顺利完成,现在我将我在过程中遇到的问题分享如下,希望对大家有所帮助,(助教给我评个优秀笔记呗,嘿嘿),绝对干货满满。

二、环境搭建

没使用datawhale发布的社区镜像,所以遇到了一些问题,但都逐一解决

1、配置

平台:autodl
硬件相关配置选择:4090*1, 120G内存, 硬盘扩容到150G
镜像选择:miniconda, cuda11.8

2、搭建环境中遇到的问题

执行bash install.sh到最后安装flash_attn很久都装不上,甚至报错:

可能原因:flash_attn包的拉取有时候需要开代理、内存不够执行setup.py
解决方案:绝大多少人遇到的问题都是执行setup.py太久了,其实是因为开着无卡模式在配环境,内存太小,这时候ctrl+c中止运行,换到有卡模式,再单独执行flash_attn的安装即可,速度很快,不会超过十分钟。

dj-process命令报错"未找到命令”

可能原因:环境安装问题,在执行install.sh中的pip install [.all]的命令时有些包没拉下来
解决方案:在对应目录下重新执行一遍pip install [.all]

autodl可能遇见报路径找不到的错误

额(⊙﹏⊙),针对这个问题,我也很疑惑,明明路径都是对的,它就是会报错,而且报错信息还会少个/root或/auto-tmp(其实我在配置文件里都加了),之后我换了台服务器,这个问题就不出现了,具体问题至今未知。

小技巧

合理开通并利用autodl-fs可以有效节省空间

3、跑baseline中遇到的问题

总体来说,环境搭好后,跑通baseline还是比较丝滑的。就是遇到了一个问题,就是pretrain跑到一半突然被中止了。最后询问了下助教,问题是:GPU好像跑炸了。解决方法:修改train_mgm_2b_stage_1.sh中batch_size的大小,我改成2在一块4090是能跑的,记得改后也要修改下面的配置项,使乘积是256(预训练)或128(微调)。

小技巧

使用auto-pannel查看硬件使用情况,可能对解决报错问题有好处
比如flash_attn一直卡着不动的时候,我发现内存基本没变化,甚至没使用,这时候你就可以怀疑它根本不在安装。

三、总结

以上就是我在第一阶段的全部心得体会,大家给个好评呗(⊙﹏⊙),有问题欢迎在评论区留言!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值