llama-index使用vllm接口连接本地大模型qwen

遇到的问题

在这里插入图片描述
一直出现这种连接错误,到后面解决了,发现是自己传进去的参数不对劲

api_url #不对,正确应该是这个参数名字
api_base="http://localhost:8000/v1"

用vllm搭建一个仿openai接口

python -m vllm.entrypoints.openai.api_server 
 	   --model qwen-0.5fuction-call #本地模型路径
 	   --gpu-memory-utilization 0.8 #使用多少显存
 	   --served-model-name qwen  #模型名称,后面调用的时候会用
 	   --trust-remote-code

解决步骤二

from llama_index.llms.openai_like import OpenAILike
llm = OpenAILike(
                model="qwen", #上面定义的模型名称
                api_base="http://localhost:8000/v1", #默认是这个端口,vllm可以设置
                api_key="EMPTY",
                is_chat_model=True,
                is_function_calling_model=True, timeout=20)
response = llm.complete("Hello World!")
print(response)

可以看到结果可以正常输出
结果展示

### vLLMQwen2.5-1M的技术特性 vLLM代表了一种高效的大型语言模型部署解决方案,它通过一系列优化措施实现了高性能推理服务。然而,在提供的资料中并未直接提及vLLM的具体实现细节。 对于Qwen2.5-1M系列模型而言,这类模型特别强调了对长上下文的支持能力。具体来说,Qwen AI团队推出的Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两款新模型能够处理高达100万词元的超长上下文[^3]。这使得该类模型非常适合应用于需要解析大量连续文本的任务场景下,比如长时间跨度的历史数据分析或是复杂的法律文件审查工作。 为了应对如此庞大的输入量级,上述提到的新模型采用了稀疏注意力机制以及内核级别的性能调优手段来加速计算过程并减少内存占用。这种设计不仅提高了效率还增强了系统的可扩展性。 此外,值得注意的是Qwen2.5版本下的不同领域特定变体也展示了各自的优势。例如,Qwen2.5-Coder经过大规模编程语料训练后可以在代码编写辅助方面提供强有力的支持;而Qwen2.5-Math则专注于数理逻辑推导等领域,并引入了诸如链式思考(CoT)等多种高级推理策略[^2]。 尽管这里没有关于如何集成这两个组件(vLLM + Qwen2.5-1M)的具体指导说明,但从描述可以看出两者都致力于提升大体量自然语言处理任务的表现效果。如果想要深入了解有关于vLLM或者获取更多关于Qwen2.5-1M的实际应用案例和技术白皮书,则建议访问官方发布渠道或查阅最新的研究论文。 ```python # 示例:加载文档并创建索引(基于VectorStoreIndex) from llama_index.core import VectorStoreIndex, SimpleDirectoryReader documents = SimpleDirectoryReader("./document").load_data() index = VectorStoreIndex.from_documents( documents, embed_model="your_embed_model", # 替换成实际使用的嵌入模型名称 transformations=None # 如果有预处理转换需求可以指定此参数 ) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值