DataWhale AI夏令营【从零入门多模态大模型数据合成】环境搭建与baseline跑通

最新推荐文章于 2024-09-27 16:14:00 发布

.CXY.

最新推荐文章于 2024-09-27 16:14:00 发布

阅读量425

点赞数 4

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_73840026/article/details/141171127

版权

文章目录

一、概要

第一次接触多模态大模型数据合成，在环境搭建和baseline跑通上遇到了诸多问题，在多位助教的帮助下，终于顺利完成，现在我将我在过程中遇到的问题分享如下，希望对大家有所帮助，（助教给我评个优秀笔记呗，嘿嘿）,绝对干货满满。

二、环境搭建

没使用datawhale发布的社区镜像，所以遇到了一些问题，但都逐一解决

1、配置

平台：autodl
硬件相关配置选择：4090*1， 120G内存，硬盘扩容到150G
镜像选择：miniconda, cuda11.8

2、搭建环境中遇到的问题

执行bash install.sh到最后安装flash_attn很久都装不上，甚至报错：

可能原因：flash_attn包的拉取有时候需要开代理、内存不够执行setup.py
解决方案：绝大多少人遇到的问题都是执行setup.py太久了，其实是因为开着无卡模式在配环境，内存太小，这时候ctrl+c中止运行，换到有卡模式，再单独执行flash_attn的安装即可，速度很快，不会超过十分钟。

dj-process命令报错"未找到命令”

可能原因：环境安装问题，在执行install.sh中的pip install [.all]的命令时有些包没拉下来
解决方案：在对应目录下重新执行一遍pip install [.all]。

autodl可能遇见报路径找不到的错误

额(⊙﹏⊙)，针对这个问题，我也很疑惑，明明路径都是对的，它就是会报错，而且报错信息还会少个/root或/auto-tmp（其实我在配置文件里都加了），之后我换了台服务器，这个问题就不出现了，具体问题至今未知。

小技巧

合理开通并利用autodl-fs可以有效节省空间

3、跑baseline中遇到的问题

总体来说，环境搭好后，跑通baseline还是比较丝滑的。就是遇到了一个问题，就是pretrain跑到一半突然被中止了。最后询问了下助教，问题是：GPU好像跑炸了。解决方法：修改train_mgm_2b_stage_1.sh中batch_size的大小，我改成2在一块4090是能跑的，记得改后也要修改下面的配置项，使乘积是256（预训练）或128（微调）。

小技巧

使用auto-pannel查看硬件使用情况，可能对解决报错问题有好处
比如flash_attn一直卡着不动的时候，我发现内存基本没变化，甚至没使用，这时候你就可以怀疑它根本不在安装。

三、总结

以上就是我在第一阶段的全部心得体会，大家给个好评呗(⊙﹏⊙)，有问题欢迎在评论区留言！

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。