DCU上如何运行大模型以及用到的docker命令

第一步:需要连接到官方(https://developer.hpccube.com/)提供的vpn

第二步:通过termius进入到项目

第三步:遇到问题

1.docker空间太小了,得换地方:参考这个
centos设置docker 目录_mob64ca12f73101的技术博客_51CTO博客
docker中我常用的一些命令:

docker ps 查看镜像
docker ps -a 查看所有镜像
可以使用docker start命令,直接将一个已经终止的容器启动运行起来。这是个好办法。start容器id
exit   ctrl+c 这两个办法都可以退出容器

2.修改pip为国内源,如果不是国内源,简直了兄弟们,根本走不通啊。我是参考下面兄弟的方法,直接在docker容器中运行。

python包管理工具pip设置国内镜像源_pip 国内镜像_px2557的博客-CSDN博客

第四步:ModelZoo / ChatGLM2-6b_pytorch · GitLab

         运行这个项目,通过Docker(方式一)的方式安装,此处有个问题,就是安装完了项目下载到哪里呢?文章里面没有说:我现在是这么干的。进入docker,随便进个目录,我进的是home,然后运行

git clone ModelZoo / ChatGLM2-6b_pytorch · GitLab这个项目。。然后就dowload到docker里面了。按照步骤运行。。肯定是成功不了的。。。因为这个chatGLM2-6B的项目,他用的模型是ChatGLM的模型。然后我报错了,这个一定要注意。。人家其实也写了的。如下:

本仓库实现了对于ChatGLM-6B模型基于P-Tuning v2的微调。P-Tuning v2是由清华大学提出的一种高效参数微调方法。

我只能说 秀儿是你吗?

其实也无所谓,只要模型路径是对的应该就可以。但是模型必须是chatglm的吗?这个还不确定,应该得是吧。。

确定了,用chatglm2-6b的模型也是可以的,所以是我菜了

模型导入了,理论上是成功了,如下图:

已经在训练了。

现在有两个问题:

1.如果服务器断开连接,重新进入服务器的话,如何查看训练状态

2.如何停止训练,如果再去训练其他模型可以吗?
大佬回复了,如果不是后台运行程序,大概率程序就断了,可以尝试用tmux

Tmux详解_royal_hu的博客-CSDN博客
大佬的这个教程就很详细,学习ing


正在训练中了。接下来想运行baichuan的大模型。读一下关于大模型的文档

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值