大模型项目部署:从魔搭到Auto算力云
在我们的模型部署过程中,我们遇到了一些挑战,特别是由于魔搭平台的限制,最终选择了Auto算力云来完成项目。以下是我们从选择平台到成功部署模型的完整经历,希望能为其他开发者提供一些参考和帮助。
遇到的问题
首先,我们在魔搭平台上进行了初步尝试。虽然魔搭提供了免费算力,但并不支持SSH远程控制,这使得在该平台上完成我们的项目变得极为困难。我们发现,所需的显存高于24GB,而魔搭提供的免费算力显存不足以满足这一需求。因此,我们必须寻找其他算力资源来完成我们的项目。
当我们看到阿里云GPU服务器一个月8000元的花费时,非常沮丧。于是,我们在网上搜索并在一些论坛和B站视频的推荐下,发现了Auto算力云平台。这个平台的最高费用不过每小时六块钱左右,对于学生定档来说,非常友好。于是我们决定使用Auto算力云的算力资源。
适应新平台
选择好平台后,我们需要花一些时间来适应这个陌生的平台。以往我们对Jupyter Notebook的刻板印象是,它只是一个不用自己配置环境的网页笔记本编译器。但在使用过程中,我们发现它可以非常快速和简单地试验代码。
此外,Auto算力云平台上数据盘和系统盘的分区也很明显。经过向客服询问后,我们决定将大约30GB的模型放在数据盘,将代码相关内容放在系统盘。
模型下载和部署
接下来就是下载模型。由于系统盘的内存资源有限,我们决定将模型下载到数据盘。然而,第一次下载过程中,我们不小心把模型下载到了系统盘里。删除后发现内存依然被占用,这让我们十分困惑。最后,我们决定清空实例,重新部署,最终解决了这一问题,并成功将模型部署在数据盘内。
具体的下载代码如下:
from modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download('TongyiFinance/Tongyi-Finance-14B-Chat', cache_dir='/root/autodl-tmp')
cache_dir='/root/autodl-tmp’就是指定的下载路径,快速使用中没有告知这个参数,后查阅官方文档发现
总结
这是我们在大模型项目中遇到的部署问题及解决过程。希望这些经验能对你有所帮助:
- 选择合适的算力资源:在选择算力资源时,考虑到显存需求和费用问题,选择最合适的平台。
- 适应新平台:在新平台上操作时,多向客服咨询,合理使用数据盘和系统盘。
- 正确下载和部署模型:注意下载路径,避免内存占用问题。
通过这次经历,我们不仅完成了项目,还学到了很多关于算力平台使用和模型部署的知识。如果你也在进行类似的项目,希望这些经验能对你有所帮助。
希望这篇博客内容能帮助其他面临类似问题的开发者。如果你有任何问题或建议,欢迎在评论区留言!