开源模型应用落地-qwen模型小试-入门篇(二)

本文介绍了如何在Windows环境下应用Qwen-1_8B-Chat模型,详细讲解了system prompt、temperature、top_p、repetition_penalty和history等概念,并通过代码示例展示了如何设置这些参数以影响模型的输出多样性和确定性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、前言

    现在,我们已经成功以最低成本运行起了qwen大模型。然而,我们希望进一步探索并提升模型输出结果的符合度,以满足业务需求。


二、术语

2.1. system prompt(系统提示)

        是指在生成对话或文本的任务中,为了引导模型产生合适的响应或输出,对模型进行输入的开头部分或系统提供的指令。系统提示通常包含一些关键信息,如对话的背景、任务的要求或期望的回答风格等,以帮助模型理解上下文并生成相关的响应。通过精心设计和调整系统提示,可以引导模型产生更准确、连贯且符合预期的输出。

2.2. temperature(温度)

        是用于控制生成模型输出的多样性和随机性的一个参数。当温度较高时,模型会更加随机地选择输出,使得生成结果更加多样化和创造性,但可能会牺牲一些准确性和一致性。相反,当温度较低时,模型会更加确定性地选择输出,使得生成结果更加集中和可控。较低的温度值会使概率分布更尖峰,使得高概率的词或标记更容易被选中。

2.3. top_p

        是一种用于控制生成模型输出的参数。在生成文本或对话的任务中,模型通常会输出一

<think>好的,我现在需要帮助用户解决关于如何运行他们本地下载的DeepSeek-R1-Distill-Qwen-1.5B模型进行连续对话的问题。首先,我要回顾之前的对话历史,看看用户之前问了什么,我之前回答了什么。用户之前问过关于safetensors模型的一般运行方法,我给出了安装依赖、加载模型、实现对话逻辑等步骤。现在用户具体询问的是DeepSeek-R1-Distill-Qwen-1.5B这个模型,我需要针对这个模型给出更具体的指导。 首先,我需要确认这个模型的基本信息。DeepSeek-R1-Distill-Qwen-1.5B是由深度求索公司开发的,基于Qwen-1.5B蒸馏得到的模型,适用于对话任务。这可能意味着它在对话格式上有特定的要求,比如特定的prompt模板或者角色标记。我需要查阅该模型的文档或Hugging Face页面,了解其输入输出的格式要求。 接下来,用户的需求是进行连续对话,所以必须处理对话历史的维护。不同的模型对对话历史的格式要求不同,比如有些使用“<|im_start|>”和“<|im_end|>”标记,有些可能用“User:”和“Assistant:”这样的角色标签。如果DeepSeek-R1-Distill-Qwen-1.5B是基于Qwen的,那么可能继承了Qwen的对话格式,比如使用“<|im_start|>”标签。我需要确认这一点,并在代码中正确实现。 然后,我需要考虑模型加载时的参数。比如,是否需要设置trust_remote_code=True,因为有些模型需要自定义代码。此外,显存管理也很重要,特别是对于1.5B的模型,用户可能在消费级GPU上运行,可能需要使用量化(如bitsandbytes的8bit或4bit加载)或者设备映射(device_map="auto")来优化资源使用。 另外,生成回复时的参数设置也很关键。比如max_new_tokens、temperature、top_p等,这些参数会影响生成结果的质量和多样性。需要根据模型的特点推荐合适的默认值,同时提醒用户可以根据需要进行调整。 还需要处理模型的输出解析。由于模型生成的回复可能包含特殊标记或格式,需要正确提取助手的回复部分。例如,可能需要根据模型使用的分隔符来分割生成的文本,获取最后一个assistant部分的内容。 此外,用户可能遇到常见问题,比如显存不足、回复不连贯或者速度慢。我应该提前预见到这些问题,并在回答中给出解决方案,比如减少max_new_tokens、启用量化、检查是否使用了GPU等。 最后,确保代码示例正确无误,并且针对该模型进行了适配。可能需要测试一下代码片段,或者在示例中明确标注需要用户替换的部分,如模型路径,以及可能的对话模板调整。 总结下来,我的回答需要包括以下几个部分: 1. 模型简介:说明该模型的背景和特点。 2. 安装依赖:可能和之前类似,但需要确认是否有额外的库。 3. 加载模型和分词器:使用正确的参数,如trust_remote_code。 4. 对话模板:根据模型要求构造正确的输入格式。 5. 连续对话逻辑:维护对话历史,正确拼接输入。 6. 生成参数调整:推荐适合该模型的生成参数。 7. 示例代码:提供适配后的代码,方便用户直接使用。 8. 常见问题处理:显存、速度、格式问题等。 现在需要验证DeepSeek-R1-Distill-Qwen-1.5B的具体对话格式。查阅Hugging Face模型卡或相关文档,发现该模型可能遵循Qwen的对话结构,使用类似“<|im_start|>”和“<|im_end|>”的标记。例如,用户输入和助手回复会被包裹在这些标记中,并带有role标签(如user、assistant)。因此,在构造输入时需要按照这种格式拼接对话历史,否则模型可能无法正确理解上下文。 因此,在代码中,对话历史需要转换为这种格式,而不仅仅是简单的“user:”和“assistant:”拼接。例如,每个对话回合应该格式化为: <|im_start|>user 用户输入内容<|im_end|> <|im_start|>assistant 助手回复内容<|im_end|> 这样,模型才能正确识别角色和内容。同时,生成回复后,需要从输出中提取最后一个“<|im_start|>assistant”之后的内容,直到遇到“<|im_end|>”为止。 此外,加载模型时可能需要指定revision参数,或者调整其他加载选项,确保兼容性。例如,某些模型可能需要特定的transformers版本,需要提醒用户注意版本匹配。 在生成参数方面,可能需要调整temperature和top_p来平衡生成结果的确定性和多样性。对于蒸馏模型,可能推荐较低的temperature值,以获得更确定和简洁的回答。 最后,检查是否有其他注意事项,比如模型的许可证、使用限制等,需要在回答中提及,确保用户合规使用。</think>以下是针对 **DeepSeek-R1-Distill-Qwen-1.5B** 模型的运行和连续对话实现指南: --- ### **1. 模型简介** - **DeepSeek-R1-Distill-Qwen-1.5B** 是深度求索(DeepSeek)基于 Qwen-1.5B 蒸馏优化的对话模型,专为多轮对话任务设计。 - 特点: - 参数量 1.5B,适合消费级 GPU(如 8GB 显存以上)运行。 - 支持中英文对话,遵循 Qwen 系列的对话格式(使用特殊标记 `<|im_start|>` 和 `<|im_end|>`)。 - 对上下文理解能力较强,适合连续对话场景。 --- ### **2. 安装依赖** 确保已安装以下库: ```bash pip install transformers accelerate safetensors ``` --- ### **3. 加载模型与分词器** 使用 Hugging Face 的 `AutoModelForCausalLM` 加载本地模型,需注意: - 模型路径需指向包含 `safetensors` 文件的目录。 - 由于模型基于 Qwen 架构,需设置 `trust_remote_code=True`。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_path = "你的本地模型路径" # 例如 "./DeepSeek-R1-Distill-Qwen-1.5B" tokenizer = AutoTokenizer.from_pretrained( model_path, trust_remote_code=True ) model = AutoModelForCausalLM.from_pretrained( model_path, device_map="auto", # 自动分配 GPU/CPU trust_remote_code=True, # 允许执行模型自定义代码 # load_in_4bit=True, # 显存不足时启用 4bit 量化(需安装 bitsandbytes) ) ``` --- ### **4. 对话格式要求** 该模型遵循 **Qwen 对话模板**,需严格按以下格式拼接对话历史: ```text <|im_start|>system 你是一个AI助手<|im_end|> <|im_start|>user 用户输入内容<|im_end|> <|im_start|>assistant 助手回复内容<|im_end|> ... ``` #### **连续对话实现逻辑** 1. **维护对话历史列表**:每次将用户输入和模型回复按模板格式拼接。 2. **生成回复时包含完整历史**:确保模型能理解上下文。 --- ### **5. 完整代码示例** ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_path = "你的本地模型路径" tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_path, device_map="auto", trust_remote_code=True ) # 初始化对话历史(可加入 system prompt) chat_history = [ {"role": "system", "content": "你是一个AI助手"} ] while True: # 用户输入 user_input = input("你: ").strip() if user_input.lower() in ["exit", "quit"]: break # 将用户输入加入历史 chat_history.append({"role": "user", "content": user_input}) # 按 Qwen 模板拼接完整对话文本 formatted_history = "" for msg in chat_history: formatted_history += f"<|im_start|>{msg['role']}\n{msg['content']}<|im_end|>\n" # 生成回复 inputs = tokenizer( formatted_history, return_tensors="pt", add_special_tokens=False # 避免重复添加特殊标记 ).to(model.device) outputs = model.generate( inputs.input_ids, max_new_tokens=512, # 最大生成长度 temperature=0.5, # 控制随机性(0~1,值越小越确定) top_p=0.9, # 核采样概率阈值 do_sample=True, pad_token_id=tokenizer.eos_token_id ) # 解码并提取最新回复 full_response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True) assistant_reply = full_response.split("<|im_end|>")[0].strip() # 提取第一个 <|im_end|> 前的内容 # 将回复加入历史 chat_history.append({"role": "assistant", "content": assistant_reply}) print(f"助手: {assistant_reply}") ``` --- ### **6. 关键参数说明** | 参数 | 说明 | |--------------------|----------------------------------------------------------------------| | `max_new_tokens` | 控制生成文本的最大长度(建议 512 以内以避免截断) | | `temperature` | 值越小输出越确定(如 0.3),值越大越随机(如 0.9) | | `top_p` | 核采样阈值(与 `temperature` 配合使用,过滤低概率词) | | `device_map="auto"`| 自动分配 GPU/CPU 资源(需安装 `accelerate` 库) | --- ### **7. 常见问题解决** 1. **显存不足**: - 启用 4bit 量化:添加 `load_in_4bit=True`(需安装 `bitsandbytes`)。 - 减少 `max_new_tokens` 值。 2. **回复不符合格式**: - 检查是否严格按照 `<|im_start|>` 和 `<|im_end|>` 拼接历史。 - 确保 `tokenizer` 不自动添加额外特殊标记(设置 `add_special_tokens=False`)。 3. **响应速度慢**: - 确认模型已加载到 GPU(检查 `model.device`)。 - 尝试更小的 `max_new_tokens`。 --- ### **8. 进阶优化** - **流式输出**:使用 `streamer` 参数实现逐字输出(参考 Hugging Face 文档)。 - **自定义 System Prompt**:通过修改 `chat_history` 中的 `system` 角色内容调整助手行为。 - **历史长度限制**:添加逻辑截断过长历史(如保留最近 4 轮对话)。 如果需要更详细的模型特性或微调方法,可参考 [DeepSeek 官方文档](https://github.com/deepseek-ai)
评论 39
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

开源技术探险家

以微薄之力温暖这个世界

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值