教育领域“知之”大模型--山东大学软件学院2024年项目实训（十一）

Huan.J

已于 2024-06-24 12:30:32 修改

阅读量122

点赞数 1

文章标签：人工智能

于 2024-06-24 12:24:05 首次发布

本文链接：https://blog.csdn.net/m0_62817302/article/details/139922124

版权

# （5）流输出

我们原本的模型是推理出结果后一起返回给前端的。这样用户的等待时间过长，交互体验极差。因此我们做了大模型的流输出（stream）。

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

# 流式输出

from swift.llm import (
    ModelType, get_vllm_engine, get_default_template_type,
    get_template, inference_stream_vllm
)

model_type = ModelType.deepseek_math_7b_instruct
llm_engine = get_vllm_engine(model_type)
template_type = get_default_template_type(model_type)
template = get_template(template_type, llm_engine.hf_tokenizer)
# 与`transformers.GenerationConfig`类似的接口
llm_engine.generation_config.max_new_tokens = 256

request_list = [{'query': '1+1=?'}, {'query': '2+2=？'}]
gen = inference_stream_vllm(llm_engine, template, request_list)
query_list = [request['query'] for request in request_list]
print(f"query_list: {query_list}")
for resp_list in gen:
    response_list = [resp['response'] for resp in resp_list]
    print(f'response_list: {response_list}')

history1 = resp_list[1]['history']
request_list = [{'query': '3+3=?', 'history': history1}]
gen = inference_stream_vllm(llm_engine, template, request_list)
query = request_list[0]['query']
print(f"query: {query}")
for resp_list in gen:
    response = resp_list[0]['response']
    print(f'response: {response}')

history = resp_list[0]['history']
print(f'history: {history}')