
★ 人工智能
文章平均质量分 95
从推理引擎搭建,到底层源码研究,小白都能理解且上手的人工智能专栏
✦昨夜星辰✦
生活就像仰卧起坐,时而卷起,时而躺平。
展开
-
vLLM 的秘密武器:PagedAttention
随着大模型的参数量不断增加,其智能水平也随之提升。然而,与此同时,这种增长也给推理能力带来了巨大的挑战。在追求更智能的大模型的同时,我们应如何解决这一推理挑战,使得大模型更加易用?原创 2024-10-28 14:27:41 · 1435 阅读 · 0 评论 -
Triton Inference Server 架构原理
我们在部署过程中需要进行的操作就是根据需要进行 config.pbtxt 配置和 model.py 脚本代码的修改,当然 triton_model_repo 仓库中并不是固定的上面这些 backend,而是可以根据需求自行增加或者删除。原创 2024-10-17 16:01:37 · 2096 阅读 · 0 评论 -
vLLM 部署大模型问题记录
vLLM 提供了一个官方的 Docker 镜像用于部署,这个镜像可以用来运行与 OpenAI 兼容的服务,并且在 Docker Hub 上可用,名为 vllm/vllm-openai。引擎启动参数:https://docs.vllm.ai/en/stable/models/engine_args.html。引擎启动参数:https://docs.vllm.ai/en/stable/models/engine_args.html。Llama3.2 最新支持视觉大模型,不支持音频输入。原创 2024-10-17 15:53:53 · 9157 阅读 · 5 评论 -
vLLM 推理引擎性能分析基准测试
本文为 vLLM 推理引擎根据官方提供的数据集进行的性能基准测试,主要测试分析 --enable-chunked-prefill 的启用/禁用以及 --max-num-batched-tokens 参数的调整对性能的影响情况...原创 2024-10-16 15:32:20 · 10351 阅读 · 17 评论 -
vLLM 大模型推理引擎调研文档
vLLM 是一个快速且易于使用的 LLM 推理和服务库,文章内容包含模型引擎部署、参数量化、性能调优分析等全套内容。原创 2024-10-16 14:41:22 · 2643 阅读 · 0 评论 -
TensorRT-LLM & Triton Server 部署过程记录
虽然理论上 Docker 方式部署不是必须,但在实践中发现如果不使用官方镜像,在配置 TRT 和 NTIS 环境的时候会出现各种由于版本 mismatch 的编译错误,比如 mpi4py api 的编译过程中,由于我们服务器的 os 版本(ubuntu24.04)与 os 对应的 openmpi 版本(4.1.6)超前导致编译失败等类似情况(在这个过程中就花费了大量的时间成本)。还是以上面的场景举例,假设当前过去了 3s,request_a 已经完成, request_b 仍需 97s 完成。原创 2024-10-15 19:50:58 · 2338 阅读 · 0 评论 -
大模型推理框架选型调研
从 TensorRT-LLM+Triton 这套方法的部署过程来看,还是较为复杂的,需要先对模型进行编译,还要特别注意环境、参数的设置,稍不注意就无法正常部署。除此之外,Nvidia 的文档也不够清晰。但是,在模型推理场景下,推理效果也并不是唯一选择因素,其他例如框架易用性、不同底层硬件的支持,也需要根据实际情况进行考量,选择最合适推理引擎。这些引擎在推理性能、优化支持、易用性等方面各有优势和特点,选择合适的推理引擎需要综合考虑这些因素,以确保模型在实际部署中能够达到最佳的性能和效率。原创 2024-10-15 19:19:26 · 1968 阅读 · 0 评论