算想云(llm.sxwl.ai)正式上线倒计时:1 天
算想云(llm.sxwl.ai):Serverless 大模型训练云服务;以低于公有云 60% 的价格运行容器化的大模型训练任务,让更多团队用得上大模型。
算想云将在北京时间 2023-11-13 10:00 正式上线,注册用户将免费获得 5 分钟 A100 GPU 时长(来自算想未来独家算力合作伙伴),同时我们将从注册用户中抽出一位幸运儿,赠送终身可用的 ¥10000/月算想云大模型算力券。详情关注算想未来公众号!
注册
-
打开算想云控制台 https://llm.sxwl.ai,选择“注册”
-
选择“算力用户注册”并填写注册相关信息,点击“注册”完成用户注册
登陆
-
打开算想云登录页面 https://llm.sxwl.ai/login,输入注册邮箱和密码,点击“登陆”
-
登陆成功后,自动进入“任务提交”页面
提交训练任务
任务提交页面是算力用户提交训练任务的入口,通过提交训练任务,用户可以直接使用算想云提供的算力进行任务训练,不用操心基础设施以及基础服务的搭建;
提交训练任务需提供以下信息:
-
“CKPT 路径”
:训练过程中产生的数据存放路径,对应用户训练程序中设置的路径 -
“模型保存路径”
:训练完成后的模型保存路径,对应用户训练程序中设置的保存路径 -
“容量”
:CKPT 路径及模型保存路径将挂载对应的 PV ,容量是需要申请的 PV 大小,根据训练预估数据量大小填写 -
“GPU”
:训练所需的 gpu 资源数量以及类型 -
“容器镜像”
:用户需要将训练程序、训练数据以及所需环境打包成镜像,并将镜像上传到公网可访问的镜像仓库,镜像打包过程可参考附录一 -
“任务类型”
:目前支持的任务类型为MPI
-
“终止条件”
:可选择自然终止
或手动设定运行时长
,在设置运行时长到期后如任务未完成,该训练任务将被终止
任务详情
-
训练任务提交后自动进入任务详情页面,此时任务进入“运行”状态,点击详情可查看该任务的运行详情(待上线)
-
任务运行完成后,可以看到“操作”中出现“下载模型”操作,点击“下载模型”弹出模型文件列表,点击链接可进行模型下载
构建能够运行在算想云上的训练镜像构建
-
以编写一个用来训练 Bert 的最基本的 Dockerfile 作为示例:
-
FROM 引入了一个基础环境镜像,里边包含 bert 训练所需的运行环境
-
RUN 中将训练所需的数据放到了 dataset 目录下,将数据一起打包到镜像里
-
CMD 中指定了镜像拉起后执行的训练程序,并指定了训练数据所在的目录,以及CKPT所在的路径
算力源用户
上面提到的是,大模型算力用户向算想云提交训练任务的过程;本章节介绍如何将智算集群接入到算想云算力网络,来运行大模型训练任务。
名词解释
-
算想云
: llm.sxwl.ai,Serverless(无服务器)大模型训练云服务 -
算力源用户
:指拥有 GPU 裸金属服务器的用户(包括服务器、网络设备等等) -
CPod
:指算力源用户将闲置算力服务器部署成的一个集群,如果用户在多个 DC 拥有闲置算力,可部署多个 CPod 加入算想云 -
accessKey
:指算力源用户注册后生成的访问密钥,该密钥在部署 CPod 时会用到,并在 CPod 注册到算想云时作为用户标识
注:一个用户对应一个 accessKey,对应多个 CPod
注册、登录
在算想云上,拥有闲置算力的用户可以选择在注册成为算力源用户,将闲置算力加入算想云,以 Serverless(无服务器)云服务的方式将算力共享出来给大模型训练用户,从而让闲置算力价值变现,实现算力源、算力用户的双赢。
-
打开 https://llm.sxwl.ai ,选择注册
-
选择“算力源注册”并填写注册相关信息,点击“注册”完成用户注册
-
已注册的用户登录系统,可以看到算力源用户指南,根据指南可以在闲置算力上部署CPod
-
在“算力源用户”页面中可以看到当前用户的注册信息以及“
accessKey
”,复制 accessKey 备用,用于下面安装三千平台,并接入算想云的操作。⚠️ Access Key 是访问算想云服务的唯一身份标识,务必妥善保管
查看算力源详情
-
此时算力源详情页面将显示 CPod 上报的算力源信息
关于转发薅羊毛
11-10 开始连续 3 天发出每日 PR,并在 11-13 日正式发出上线公告,总共 4 篇公众号文章,薅算想未来(sxwl.ai)羊毛活动规则简介如下:
-
总阅读量超过 1 万,从转发所有 4 篇文章的网友中选出一位,参加 NVIDIA GTC 3 日游!
-
超过 10 万,从转发所有 4 篇文章的网友中选出一位,获赠定制大提琴一架!
-
超过 100 万,从转发所有 4 篇文章的网友中选出一位,成为算想未来数字幽灵!
详情请查看本公众号文章“薅算想未来(sxwl.ai)羊毛”
阅读原文:https://docs.sxwl.ai/