本博客为山东大学软件学院2024创新实训,25组可视化课程知识问答系统(VCR)的个人博客,记载个人任务进展。
第八周:对Qwen-72B进行微调,使用
配置和启动服务
1.配置部分
配置参数:
根据实际情况配置模型参数,如batch size、sequence length等。
设置环境变量:
设置相关的环境变量,如CUDA_VISIBLE_DEVICES。
2.启动服务:
启动服务:
1.使用的是阿里云PAI QuickStart,可以在PAI控制台中快速开始页面找到Qwen-72B-Chat的模型卡片。
2.点击“模型部署”,配置灵骏计算资源(如GPU类型、数量等),然后点击“部署”按钮将模型部署到PAI-EAS推理服务平台。
3.部署完成后,通过部署的在线服务详情页,查看服务访问地址(Endpoint)和访问凭证(Token)。
3.调用推理服务:
使用HTTP API、SDK或其他方式调用推理服务。
例如,使用cURL命令通过HTTP API调用推理服务,示例命令如下:
bash
curl $API_ENDPOINT/v1/completions \ | |
-H "Content-Type: application/json" \ | |
-H "Authorization: Bearer $API_TOKEN" \ | |
-d '{"prompt": "你的输入文本", "max_tokens": 100, "temperature": 0.5}' |
远程调用
1. 部署模型并配置服务接口
选择部署平台:首先,你需要在本地或云服务器上部署Qwen-72B模型。如果使用云服务,如阿里云PAI平台,你可以按照平台的指导进行模型部署。
配置服务接口:部署完成后,你需要配置服务接口以便远程调用。这通常包括设置API的端点(Endpoint)、访问权限(如API密钥或Token)等。
2. 设置访问权限
API密钥或Token:为了保护模型服务的安全,你需要设置API密钥或Token。这些密钥将用于验证远程调用的身份和权限。
IP白名单:你还可以设置IP白名单,只允许特定的IP地址或IP段访问模型服务。
3. 使用API进行远程调用
API文档:查阅Qwen-72B模型的API文档,了解如何构造请求和解析响应
HTTP请求:使用HTTP客户端(如curl、Postman或编程语言中的HTTP库)发送GET或POST请求到模型的API端点。。
请求参数:在请求中,你需要提供必要的参数,如输入文本、生成文本的长度限制等。同时,你还需要在请求头中包含API密钥或Token以进行身份验证。
接收响应:服务器将处理请求并返回响应。你需要解析响应以获取生成的文本或其他结果。
4. 示例代码(假设使用curl命令)
bash
curl -X POST \ | |
<API_ENDPOINT> \ | |
-H 'Authorization: Bearer <API_TOKEN>' \ | |
-H 'Content-Type: application/json' \ | |
-d '{ | |
"prompt": "你的输入文本", | |
"max_tokens": 100, | |
"temperature": 0.5 | |
}' |