免费白嫖100元gpu算力！用免费GPU线上跑大模型项目实践

IT大头

已于 2024-06-27 13:43:17 修改

阅读量1.6k

点赞数 9

分类专栏：大模型微调实战文章标签： qwen2 人工智能语言模型自然语言处理 gpu算力 chatgpt

于 2024-06-27 11:37:56 首次发布

本文链接：https://blog.csdn.net/qq_45156060/article/details/140005732

版权

大模型微调实战专栏收录该内容

14 篇文章 15 订阅

订阅专栏

一、免费gpu领取地址

本文以趋动云平台为例，详细介绍下如何通过平台提供的在线开发环境，直接在云端编写、运行代码，并使用GPU资源进行加速。本教程将学习云算力资源的使用方式，并使用免费算力跑qwen2大模型

注册即送100元算力金（优先到账70元剩余30后续到账）
专属注册链接：https://platform.virtaicloud.com/gemini_web/auth/register?inviteCode=e076da0068ffdc80f5bfe31cbafb231c

适用人群：

新手开发者、快速原型设计者；
需要协作和分享的团队；
对大模型部署感兴趣的人；
深度学习入门学习者；
对使用GPU资源有需求的人。

二、使用教程

2.1、注册领取

2.2、查看算力

注册完成后，点击右上角：费用中心，可查看领取的算力（立即到账70）。

2.3、进入平台中心

https://platform.virtaicloud.com/gemini_web/workspace/space/ggxlmtsn2su1/project/list

三、模型部署实战

3.1 创建项目

创建好账号之后，进入自己的空间，点击右上角的创建项目。

3.1.1、算力选择

给项目起一个你喜欢的名称，选择想要的算力，我这里选择的3.98/小时的48g内存（ps：不要大批量充钱，因为这个看着是打折价格，如果回复原价就血亏😀）

价格对比：腾讯有个32g的内存每小时3.6元（如果驱动云恢复原价这个更有性价比）

3.1.2、选择镜像

选择官方这个来源的下面这个镜像，本人测试发现这个镜像的bug最少

之后就可以启动等代环境创建完成,进入开发环境。

3.1.2、其他后续操作

（1）如果不适用请立即销毁，避免算力因忘记而花光

（2）ssh 连接自己看教程

3.2、简单qwen2大模型推理部署

我这里选择的是qwen/Qwen2-72B-Instruct-GPTQ-Int4 因为不是量化的72b模型没有百G玩不来，48g勉强够用int4

(1)升级 transformers

pip install modelscope

pip install -i https://mirrors.aliyun.com/pypi/simple/  transformers>=4.37.0

(2) 运行代码

from modelscope import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained(
    "qwen/Qwen2-72B-Instruct-GPTQ-Int4",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen2-72B-Instruct-GPTQ-Int4")

prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)