AladdinEdu使用手册

九章云极AladdinEdu

已于 2025-04-29 14:52:30 修改

阅读量1.9k

点赞数 75

分类专栏： AladdinEdu 文章标签： pytorch 人工智能 gpu算力 AI编程 ai 算法机器学习

于 2025-04-16 18:38:28 首次发布

本文链接：https://blog.csdn.net/aladdinedu/article/details/147282996

版权

AladdinEdu 专栏收录该内容

3 篇文章

订阅专栏

简介

严肃声明：严禁挖矿，一经发现一律清空所有算力并永久封号！

🔹欢迎关注公众号“九章云极AladdinEdu”，获取更多活动与福利！
🔹注册地址：AladdinEdu，同学们用得起的算力平台。
🔹必看文档：

快速开始
数据
充值与计费

学术资源加速

公开资源

Github加速：https://gh-proxy.com/

Huggingface加速：https://hf-mirror.com

快速开始

AladdinEdu的使用主要分为三步，workshop建立 > 环境配置 > GPU调用，以下内容将围绕
此流程展开。

插件初始化

本节预计完成时间：2min

插件安装

以VSCode版本为例：
在扩展中搜索Aladdin，点击安装：
在这里插入图片描述
安装完成后可在活动栏看到Aladdin插件图标，安装成功：

账号登录

以VSCode版本为例，点击Aladdin插件图标，选择Login Personal Account，弹窗后选择“打开”
外部网站（AladdinEdu平台）：
在这里插入图片描述
在AladdinEdu平台中使用手机号或账号密码登录，首次使用者请先注册：

登录成功后点击“点击返回VSCode”，然后手动返回VSCode，弹窗后选择“打开”此URL，此时
VSCode中提示登录成功：

workshop创建

本节预计完成时间：3.5min

Stop时workshop中的数据（包括环境）将全部保存，因此重新Open后无需再次配置和上传
数据。总之，workshop在，数据在。但是，自当前算力套餐失效起，若15日内未登录过
AladdinEdu平台，存储将会被释放。

workshop为Aladdin插件的编码区，可在本地VSCode中连接远程服务器。
在workshop菜单栏中点击 +，新建workshop：
在这里插入图片描述
填写workshop名称，选择基础镜像与资源（推荐选择“CPU:4 MEM:16G”）：

workshop启动参数介绍（参数设置仅作用于当前workshop）

参数名称	说明	备注
Environment	workshop使用的镜像	通常包含预装软件和基础运行环境
Resource	分配给workshop的CPU和内存	这些资源与GPU运行时是共享的，GPU资源详情请查看GPU调用
ENV	workshop运行时的环境变量	可用于配置应用参数、API密钥等敏感信息

*注：目前不支持保存私有镜像。如需安装任何自定义包，此处镜像可随意选择。
重要 ❗ ：如需打开远端页面的Cursor，需在ENV下配置科学上网信息。

镜像介绍

在这里插入图片描述
点击提交后会出现插件的状态提示，配置预计在2min左右完成，提示由“Workshop is waiting for creating.”变为“Workshop is created.”：

此时会弹出一个新窗口（后文统称远端页面），选择"Linux"，之后远端页面中将自动安装相关插件：
在这里插入图片描述
等待远端页面中出现Aladdin插件图标，workshop创建完成：

常见问题

Q：启动workshop时Environment栏无内容，如何处理？
A：网络延迟或设备卡顿引起，稍等片刻即可。

Q：启动workshop后提示填写locahost密码，如何处理？
A：这种情况下是由于您当前设备中可访问 ~/.ssh 或 ~/.alaya/ssh 的用户过多，删除至仅当前登录用户可访问即可恢复正常，点击查看解决方案链接。

Q：workshop打开远端页面失败，提示“无法与‘创建的workshop’建立连接”。
A：需要检查本地是否启动了全局代理模式的科学上网。如有，可尝试关闭后再重启。

Q：远端页面提示“无法激活‘Aladdin’拓展”/远端页面中未显示Aladdin插件图标，如何处理？
A：在远端页面中卸载Aladdin插件，然后在本地的VSCode中右击有问题的workshop，点击"Install Remote"手动安装。

Q：我在workshop中装了gcc，为什么GPU Run时无法使用？
A：任何没有装在/root目录下的文件都不会被保存，通过重启workshop或启动GPU Run等都不会生效。后续保存镜像功能上线后，可通过保存镜像即可解决。

如问题仍无法解决，可关注公众号“九章云极AladdinEdu”，点击菜单栏中的“问题反馈”，根据问卷提示填写相应报错信息，等待工作人员联系。

配置环境

本节预计完成时间：约5min
以下操作均在远端页面中进行

由于目前保存镜像功能暂未上线，直接将包装在镜像中将无法正常使用。因此，如需自定义安装包，均需从零开始配置环境。

注：强烈推荐按照本文说明，使用miniconda做环境配置。

workshop创建成功后，进入远端页面，选择打开/root目录：
在这里插入图片描述
新建终端，在终端中安装miniconda，并确认安装在/root目录下：

Conda配置方法

# 下载最新版 Miniconda (Linux 64位)
curl -L -O https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 运行安装脚本
bash Miniconda3-latest-Linux-x86_64.sh
# 安装时You can undo this by running `conda init --reverse $SHELL`?
# 此项必须选择Yes,安装完成后重启终端conda命令才能生效~
# 验证安装
conda --version
# 应该显示类似：conda 25.1.1
# 添加清华 conda 源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
# 显示通道URL
conda config --set show_channel_urls yes
# 设置 pip 使用清华源
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

成功安装miniconda后，需配置python解释器——新建一个python文件，点击远端页面右下角的
python版本号，切换到conda环境中的python：
或使用 Ctrl+Shift+P 快捷键打开命令窗口，输入"Select Interpreter"，更换python解释器。

重要 ❗：如不切换，调用GPU时将无法复用配置的环境，出现找不到已安装包的报错！

在这里插入图片描述
远端页面右下角的版本号出现conda环境名，环境切换成功：

接着安装torch，推荐安装12.4版以适配GPU：

配置科学上网后将显著提升下载安装速度，具体步骤参考学术资源加速。

#安装cuda 12.4
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

使用以下代码测试cuda是否安装成功，以及是否与当前环境GPU兼容：

import torch
import time
def test_cuda_availability():
print("\n======= CUDA 测试 =======")
# 检查 CUDA 是否可用
cuda_available = torch.cuda.is_available()
print(f"PyTorch CUDA 可用: {'✅是' if cuda_available else '❌否'}")
if cuda_available:
# 打印 CUDA 版本和设备信息
print(f"PyTorch CUDA 版本: {torch.version.cuda}")
print(f"当前 GPU 设备: {torch.cuda.get_device_name(0)}")
print(f"GPU 数量: {torch.cuda.device_count()}")
else:
print("⚠ 请检查 CUDA 和 PyTorch 是否安装正确！")
print("========================\n")
def test_gpu_speed():
print("\n======= GPU 速度测试 =======")
# 创建一个大型张量
x = torch.randn(10000, 10000)
# CPU 计算
start_time = time.time()
x_cpu = x * x
cpu_time = time.time() - start_time
print(f"CPU 计算时间: {cpu_time:.4f} 秒")
if torch.cuda.is_available():
# 移动到 GPU 计算
x_gpu = x.to('cuda')
start_time = time.time()
x_gpu = x_gpu * x_gpu
torch.cuda.synchronize() # 确保 GPU 计算完成
gpu_time = time.time() - start_time
print(f"GPU 计算时间: {gpu_time:.4f} 秒")
print(f"GPU 比 CPU 快: {cpu_time / gpu_time:.1f} 倍")
else:
    print("⚠ GPU 不可用，跳过测试")
print("==========================\n")
def test_training():
print("\n======= 简单训练测试 =======")
# 定义一个极简神经网络
model = torch.nn.Sequential(
torch.nn.Linear(10, 100),
torch.nn.ReLU(),
torch.nn.Linear(100, 1)
)
# 如果有 GPU，将模型和数据移到 GPU
device = 'cuda' if torch.cuda.is_available() else 'cpu'
model = model.to(device)
print(f"使用设备: {device.upper()}")
# 模拟数据
X = torch.randn(1000, 10).to(device)
y = torch.randn(1000, 1).to(device)
# 训练循环
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
start_time = time.time()
for epoch in range(5):
optimizer.zero_grad()
output = model(X)
loss = torch.nn.functional.mse_loss(output, y)
loss.backward()
optimizer.step()
print(f"Epoch {epoch + 1}, Loss: {loss.item():.4f}")
total_time = time.time() - start_time
print(f"总训练时间: {total_time:.2f} 秒")
print("==========================\n")
if __name__ == "__main__":
test_cuda_availability()
test_gpu_speed()
test_training()

将代码复制到test.py中，在代码区右击GPU RUN运行。将资源选择为GPU，其余不变：
在这里插入图片描述

输出内容案例：

======= CUDA 测试 =======
PyTorch CUDA 可用: ✅是
PyTorch CUDA 版本: 12.4
当前 GPU 设备: [你选择的设备]
GPU 数量: 1
========================
======= GPU 速度测试 =======
CPU 计算时间: 0.0487 秒
GPU 计算时间: 0.0975 秒
GPU 比 CPU 快: 0.5 倍
==========================
======= 简单训练测试 =======
使用设备: CUDA
Epoch 1, Loss: 0.9516
Epoch 2, Loss: 0.9486
Epoch 3, Loss: 0.9462
Epoch 4, Loss: 0.9442
Epoch 5, Loss: 0.9424
总训练时间: 1.93 秒
==========================

数据

概要

公测期间，存储空间暂不支持扩展，同时我们将每种套餐的免费存储权益均开放至100G。请留
意存储占用，不要超出100G，否则可能出现workshop无法正常启动等问题。

数据保留规则

自当前算力套餐失效、账号不享套餐权益起，若15日内未登录过AladdinEdu平台，存储资源将
会自动回收。

上传下载数据

文件传输的平均速度为2-3M/s，峰值约为5M/s。如传输速度缓慢，可能是由于带宽负载较
大，请稍后再试。

小文件传输（M级别文件）
选择工作目录后，可通过直接拖拽至工作区来导入文件。
大文件传输（G级别文件，强烈推荐）

查看ssh配置文件
workshop创建成功后，查看ssh的配置文件：

按 Ctrl+Shift+P 快捷键，选择“Remote-SSH: Open SSH Configuration File”

在这里插入图片描述

在配置文件中找到workshop名称对应的Host，其中IdentityFile为密钥文件目录：

配置sftp软件，以FlieZilla Client 为例
连接、传输时需确保 workshop 处于 running 状态
向/root目录下传输文件

scp方式（推荐Mac用户及Linux用户使用）

#上传命令
scp -r /本地/目录 ${workshop name}:/root/路径
#下载命令
scp -r ${workshop name}:/root/路径 /本地/路径

公网网盘传输
正在施工中，敬请期待~

GPU调用

对python文件支持GPU Debug、GPU Run、Run Task；对shell文件支持Run Shell、Run Task。
以上任务运行均与workshop状态无关，您可在任务运行时停止workshop。

除了Run Task为训练态，其他功能均为开发态，即会有Log输出，但是不会保存。

在对应文件中右击，点击相应功能后弹出如下配置页面：
在这里插入图片描述

参数介绍

调用GPU（所有类型）成功后，对Running状态下的进程可以通过右击远端页面中的 DEVELOP SESSION 进行下列操作：
在这里插入图片描述

操作介绍

操作	功能描述	使用场景
Terminal	打开运行终端，实时查看进程状态和GPU使用率	实时监控任务状态
View Log	查看任务实时/历史运行日志	检查执行结果和错误
Copy Path	复制log目录路径（Run Task专属）	在终端快速访问日志目录
Delete	手动终止进程并释放资源	停止异常任务

GPU Debug

提供 Debug 调试功能，支持断点调试，并在调试控制台中查看输出信息。
在这里插入图片描述

GPU Run

GPU Run提供与VSCode直接Run代码类似的开发态执行体验，运行Log默认会在输出中展示。
运行结束后将会自动释放资源，停止计费。

Run Shell

与GPU Run类似，Run Shell可用于运行sh脚本，也可用于编译环境，但如上文所说编译后的环
境只会保存在临时存储中，关闭workshop后会清除。

注：sh文件中需要添加conda activate [你的环境名]命令，或在.bashrc文件中直接激活
conda环境。

Run Task

Run Task作为唯一训练态功能，可用于运行多worker分布式任务（torchrun）。此时GPU并行
度=GPU数*worker数。
在这里插入图片描述
运行Task时默认不会有Log输出。如需查看日志，需在session中等待Task状态切换为Running后，右击“View log”查看；或右击“copy path”，复制日志文件目录到终端中通过cd打开查看。

同时，Run Task支持在本地VSCode中查看或下载日志。
在这里插入图片描述

操作介绍

操作	功能描述
View Log	查看Task的日志信息
Log Download	下载Task的日志信息到本地
Stop	停止当前正在运行的Task
Monitor	资源监视器，可查看CPU、内存、GPU使用情况
Delete	删除Task的日志信息

本地VScode中，该Delete功能会停止Task并删除日志信息。

充值与计费

充值

当前仅支持通过客服充值算力。在付款页面扫描企业微信二维码，添加客服获取最新价格与优惠
政策。

发票

AladdinEdu平台支持开票，项目名称为“技术服务费”。如有开票需求，可联系客服办理。

计费

AladdinEdu平台目前采用订阅制计费方式。用户可订阅不同类型套餐，套餐权益见下表：

套餐名称	尝鲜版	初级版	高级版	扩展包
套餐内算力/DCU	20	56.6	500	10
最大并行度	2	4	8	—
免费存储空间/G	30	60	100	—
非教育用户费用/元	135	365	3100	67.5
教育用户费用/元	119	325	2750	59.5

DCU，即度，AladdinEdu平台采用的算力基本计量单位，1DCU=A100（80GB SXM版）实际运行1h（算力量=312TFLOPS*1h）

AladdinEdu平台目前提供两种GPU，规格如下：

规格参数	DC100（Hopper）40G	DC100（Hopper）80G
显存大小	40GB	80GB
算力定价	1.28 DCU/H	2.56 DCU/H
并行度	1	2

1 * DC100（Hopper）40G + 2 * DC100（Hopper）80G <= 订阅套餐的最大并行度

举例：
即高级版套餐可同时使用4张DC100（Hopper）80G，或同时使用8张DC100（Hopper）40G，
或组合使用。

结转

套餐有效期为30天，期间未消耗的算力将且仅将结转30天，结转后的算力处于未激活状态。在
结转周期内再次订阅，这部分算力将被激活，但无法再次结转；若无再次订阅，这部分算力将无
法继续使用。

举例：
小明在4月1日订阅了一个月尝鲜版套餐，在4月30日剩余10DCU算力未使用，那么在5月1日账
号内仍会留有10DCU算力，但该部分算力尚处于未激活状态。小明在5月15日再次订阅了一个月
初级版套餐，此时10DCU算力激活，账户内合计有66.6DCU算力。假设小明在6月13日前没有
消耗任何算力，那么在6月14日，10DCU过期，其算力余额将为56.6DCU，且处于未激活状
态。

升级与续费

订阅更高权益的套餐时，支付成功后升级将立即生效，有效期为30天。原套餐算力的有效期同
步刷新，将在30天后进入结转周期。

如果订阅更低权益的套餐，或续费相同权益的套餐，新订阅会从当前周期结束后开始生效。在当
前周期内无法使用下个周期的算力。

总结

算力扣减顺序为：结转算力>扩展包>（低级）套餐内算力>（高级）套餐算力。

补充说明：

1. "6C 80G"是指为每卡分配了6个CPU与80G内存，以此类推。每并行度可用CPU数为10，存储为121G，超出后将报错超出quota； 
2. 只在占用GPU时计费，其他时间则不计费，如文件上传与下载、环境配置等。