如何在内网环境中搭建大模型微调平台

bagell

于 2024-08-22 10:35:03 发布

阅读量407

点赞数 17

文章标签： prompt 人工智能大数据面试 langchain

本文链接：https://blog.csdn.net/bagell/article/details/141421888

版权

背景

AI服务器在内网，除了预先安装的python及docker等基本软件包外，别的一概没有。从零基于Llama-Factory搭建大模型微调环境。

在VMWare上搭一个同样服务器版本（例如centos）的虚拟机，用于联网下载依赖包；后续再拷贝过去。

docker

在运维同事打好docker镜像后，开发编写docker-compose单独起一个docker环境。在这里建议是以自己的名字命名文件夹下起docker，这样的话，docker-compose挂载的volume就比较干净，直接在自己名字的目录下。

docker-compose如下：

文件夹结构如下，这是我自己名字下的包文件：

虚拟环境venv

进入docker，基于python3默认的venv模块，单独起一个python虚拟环境，隔离包的依赖。

如下：

python -m venv apienv

激活环境：

source ENV_DIR/bin/activate

pip包下载

在内网环境下，如果没有镜像库支持，是无法像平时一样一键pip intasll xxx安装。因此就要手动搞了。

有两种方案：

先pip download再pip install --no-index
直接pip install xxx --target /path

当然包的下载是在venv虚拟环境下，隔离开别人的包依赖，防止覆盖或版本不对。

我个人用的命令如下：

# 指定源下载包
pip install pandas -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com  

# 将本地目录打包，解决llamafactory-cli命令报错的问题
pip install -e . --no-build-isolation --no-index --find-links=./

# 指定源下载requirements依赖，并指定下载目录
pip download -r requirements.txt -d /home/sitepackage/ --index-url http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com   

# 指定源下载 指定包 ，并制定下载目录
pip3 download -d /home/sitepackage/ gradio==4.21.0 -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com  

# 离线安装 download 下载好的依赖包
pip install --no-index --find-links=/home/sitepackage/ -r requirements.txt

LLaMA-Factory报错

llamafactory-cli不存在

新版Llama-Factory改为了llamafactory-cli命令训练微调。但该命令默认是不存在的，需要在LlamaFactory源码的目录下运行 pip install -e .即可，官方文档已经写了需要事先运行该命令。但在离线环境下，就不能直接这么写，上述的命令列表已给出命令。不过当时还是出现了新的问题：

见issue。

是LlamaFactory自身的问题，重新拉去最新的代码即可。只要按照如上步骤，先download包，然后install，最后执行：

pip install -e . --no-build-isolation --no-index --find-links=/home/sitepackage/

即可生成llamafactory-cli命令。

docker共享内存不足

报错如下：
在这里插入图片描述

docker默认的内存是 64MB，在执行llamafactory-cli train xxx时，如果当前机器是多卡，那么默认是分布式训练。docker共享内存不足，调大docker内存即可。在docker-compose文件中，增加配置：

shm_size: 16GB

当然也可以指定单卡训练，如果单卡的显存够的话，命令如下：CUDA_VISIBLE_DEVICES=0 llamafactory-cli train xxx

参考：https://github.com/NVIDIA/nccl/issues/342[1]https://www.jianshu.com/p/3ba9a016dc82[2]

transformers版本不对

报错如下：

ValueError: too many values to unpack (expected 2)

重新安装一下transformers，其指定版本为4.41.2。

总结

LlamaFactory新版更新后，还是比较方便，只是说llamafactory-cli命令的确是有点蒙，踩个坑就好了。

对于LlamaFactory微调来说，本身不难，毕竟都是配置；主要是在内网环境下的依赖包拉取安装是真麻烦，但其实也还好。走一遍的话，还是可以学到很多的。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

bagell

关注

17
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
如何在内网环境中搭建大模型微调平台

LlamaFactory新版更新后，还是比较方便，只是说llamafactory-cli命令的确是有点蒙，踩个坑就好了。对于LlamaFactory微调来说，本身不难，毕竟都是配置；主要是在内网环境下的依赖包拉取安装是真麻烦，但其实也还好。走一遍的话，还是可以学到很多的。
复制链接

扫一扫