弈秋001-CSDN博客

原创整理一些大模型部署相关的知识

PagedAttention是vllm中应用的技术, 这是一个很棒的推理技术, 其他推理架构也融入PagedAttention, 比如TensorRT-LLM, llama.cpp等架构, 反正好的技术大家都会相互借鉴. 该技术主要针对KV Cache 显存瓶颈进行优化, 核心思想是动态分配, 这个过程有点类似C/C++中的指针操作, 指针只存储数据地址, 具体数据在单独的数据块中：按需申请显存块，避免预分配浪费非连续存储：允许一个请求的KV Cache分散在不同物理块中共享机制：多个请求可共享相

2025-04-06 22:25:47 699 1

原创 qwen2.5-vl多机多卡分布式部署

记录一下工作中进行多机多卡部署qwen2.5-vl多模态大模型踩过的坑第一个天坑就是官方提供的镜像qwenllm/qwenvl:2.5-cu121有问题，在titan显卡会抛出cuda error:no kernel image is availabe for execution on the device. 这是cuda内核与GPU不兼容的问题，可是手动制作的其他cuda12镜像就能跑。

2025-03-15 17:52:48 2521 1

原创 qwen2.5-vl使用vllm部署gradio页面调用

想在服务器上用vllm部署qwen2.5-vl, 然后使用gradio页面在本地调试，官方代码给了两条命令，列出的request body体结构，不过要与gradio连用，还需要重新组织代码。

2025-03-13 22:57:18 1566

原创 llamaindex实现企业级RAG应用（二）

融合检索器是通过多个不同的检索方法进行检索，并对检索的结果使用 RRF 算法（或其他算法）重排序后输出，它可以组合多个不同的输入问题或者不同类型索引的检索结果，以弥补单个索引在检索精确性上的不足。在后端后端 Agent 模块中，通过两级的 Agent 之间的配合，结合底层的 RAG 查询引擎来完成更复杂的知识型任务。（一）中描述的架构，top agents也可归类为一种检索前优化，即对检索工具进行分发，让它们去调用tool agent完成相应检索。前面提到检索器的构建比较简单，也没太多自定义选项。

2025-03-12 14:22:44 569

原创 llamaindex实现企业级RAG应用（一）

查询引擎可以通过()的方式一步构建完成，但若要实现更复杂的RAG流程，则需要我们精准控制query_engine的内部细节，这里我们手动构建一个。2.1 自定义响应器通俗地说，查询引擎=检索器+响应器，检索器可灵活操作的代码不多，这里仅构建响应器# 自定义响应器"根据以下上下文信息：\n""使用中文回答以下问题\n ""问题: {query_str}\n""答案: "self,) -> None:# 必须实现的接口# 必须实现的接口, 更新提示词# 生成响应的接口self,

2025-03-12 14:21:06 809

原创多模态大模型在泛物体检测领域的应用

泛物体检测是开放集任务，相比于 open set，需要知道不在训练集类别中的新预测物体类别。这类模型接入文本作为一个模态输入，输出文本描述物的位置坐标和置信度。通过文本提示（Text Prompt）或自然语言描述引导物体检测，支持开放词汇（Open-Vocabulary）检测。结合大语言模型（LLM）的语义理解能力，实现零样本（Zero-Shot）检测。本文从多模态clip系列模型和多模态语言大模型两个方向入手，各挑选一些有代表性的开源模型，简要描述工作原理与适配成泛物体检测的使用方法。

2025-02-27 11:16:28 906

原创 vllm源码解析(六)：采样策略分析

比如llama3和llama3.1，在prompt一样时，transformers和vllm的推理结果是对齐的，但qwen系列结果对不齐，这就很奇怪，因为vllm解码与采样策略是所有模型公用的。在模型输出特征一致的情况下，影响输出token最大因素即是不同的采样策略，如transformers和vllm的推理结果会有偏差。在前面几篇文章中，详细讲述了vllm的调度系统和模型推理流程，现在还剩下最后一个问题，即如何对齐输出结果。目前可以确定，是采样方法差异导致的推理结果不一致，在。

2024-10-23 10:07:14 1352

原创 vllm源码解析(五)：LLM模型推理

self.model_executor.execute_model，调用与vllm耦合后的LLM模型进行推理。这是本篇要讲解内容，我们先来看下模型输入长什么样,execute_model_req：从调度系统中获得，可以用于做推理的seq_groups, 对seq_groups及可用到的各种属性做了封装，暂时不必管都是什么意思，用到时再现场分析。8.1中完成了资源调度工作，接下来该送入初始化好的模型进行推理了。不过vllm对具体模型的又做了多层封装：8.1中模型调用指向gpu_executor：

2024-09-08 22:01:42 5223 1

原创 vllm源码解析(四)：LLM模型权重加载与kv-cache初始化

图来自B站某个视频，发现找不到原视频了！我们先来看下LLM是怎么结合到vllm中的。这是模型的入口，model_path路径指向下载的。可以看到通过from_engine_args来加载，继续往下看from_engine_args输入参数如下：cls(…, 这在本章开头的结构图中也能清晰看到。tokenizer比较简单，这里略过，schedule在第二篇文章中已经讲过。

2024-09-08 13:36:16 7388 4

原创 vllm源码解析(三)：块管理(BlockManager)

目前为止，我们提到了很多次物理块的概念，到底什么是块呢？首先来看下物理块block(在块管理器BlockSpaceManager中使用)self,) -> None:# 该物理块在对应设备上的全局block索引号# 每个block槽位数量(默认16)# 在prefix caching场景下使用，其他场景值为-1# 该物理块的hash值是由多少个前置token计算而来的，非prefix caching场景值为0# 该物理块被引用次数。

2024-09-05 21:50:22 2912 4

原创 vllm源码解析(二)：调度策略分析

你有没有遇到过这种情况，某天，你老板（**调度**）来到你面前，跟你（**running**）说，亲，你的工作饱和吗（**最大吞吐量**），要不要给你再来点？我想你肯定没遇到过。真实的情况是，老板会直接把工作甩你脸上，工作不饱和你就干吧，没时间干（**gpu资源不足或处理数量超出阈值**）就先积压起来（watiing or swapped），有时间再搞。

2024-09-03 23:25:17 3845 6

原创 vllm源码解析(一)：整体架构与推理代码

vlllm官方代码更新频发,每个版本都有极大变动, 很难说哪个版本好用.第一次阅读vllm源码是0.4.0版本,对这版圈复杂度极高的调度代码印象深刻0.4.1对调度逻辑进行重构,完全大变样, 读代码速度快赶不上迭代的速度了。现在已经更新到0.5.4, 经过长时间观察，发现主要的调度逻辑基本也稳定了下来, 应该可以作为一个固话的版本去阅读。本文解读依据vllm 0.5.4版本. 没有修改任何代码,大家不必担心夹带私货！打算以五篇文章的篇幅剖析vllm，希望能对大家有所帮助。

2024-09-03 23:08:46 10589 8

原创 llama-factory训练RLHF-PPO模型

除了ppo, dpo(Direct Preference Optimization:直接偏好优化)也是一种常见的调优手段, 不过多篇paper研究证明性能不如PPO, 在计算资源不足的情况下DPO也是个不过的选择,因为不需要训练奖励模型, 而且训练速度快,效果也比较稳定, 不像PPO那样很容易训崩.其他LLM偏好对齐训练技术还有ORPO,IPO,CPO以及效果看起来很棒的KTO.还有最新发表的RLOO,看起来比PPO更好更易训练.这个领域发展太快, 脑子快不够用了.

2024-06-29 13:47:01 9643 22

原创并发调用deepseek API，构建多轮对话数据

现在大模型领域非常魔幻一件事，是调用友商开源的大模型构建自己的数据集，大家相互调用，数据同源导致同样的问题回答内容也差不多，也难怪大家会质疑某些大模型是套壳gpt了，看来只有能积累原始数据的公司才能最终活下来。这里就演示下如何用多进程调用商用大模型构建sft数据集。

2024-06-21 10:26:07 5115

原创使用Qwen2进行RAG代码实践

前几天qwen2发布, 看与其他模型对比，效果挺棒的。用这个新模型写点东西, 测试下效果, 就测试下rag效果吧。RAG是大模型的补充, 可归类为提示词工程范畴(prompt),旨在扩展大模型中没有的知识. 具有可解释性,难度低的特点.RAG逻辑其实很简单，也不需要微调模型，就是个外挂知识库，但要想达到好的效果，还是需要花心思深究的。: 向量数据库的建设,提取向量的模型的挑选,信息检索方法等允许模型在生成文本时，从外部知识库中检索相关信息，从而提高生成内容的准确性、相关性和时效性。

2024-06-14 14:26:39 7438 9

原创语言大模型qwen1.5全流程解析：微调，量化与推理

qwen1.5用法与qwen差异很大，代码合入了transformers库中，使用风格变得统一，这种标准化是以后大模型发展的一个趋势吧，就像tokenizer.apply_chat_template统一prompt一样。仅过去一年时间，这个领域的许多技术已经趋向成熟，发展速度真是太快啦，对于我们来说变方便了，同时门槛也变低，可以让更多人进入大模型领域。但从另一个角度看，当大模型研发，部署都能通过已有技术简单高效完成，那算法人员存在的意义又是什么呢，技术搬运工 or 高级调参侠？

2024-06-07 00:01:06 4281 2

原创 tensorrt-llm与vllm的量化性能比较

准备部署lora微调好的语言大模型，有tensorrt-llm和vllm两种加速策略可选，而量化策略也有llm.int8，gptq，awq可用，怎样的组合才能获得最佳精度与速度呢，这是个值得探讨的问题，本文以llama-factory训练的qwen-7b的lora模型为基准，探究这几个组合对性能的影响。大模型的效果评估是件很难做的事，尤其是对文本生成类的lora模型，比较简单的办法是把生成文本与标签文本用chatgpt去评估打分。

2024-06-04 23:50:46 2444

原创使用TVM在树莓派部署yolov8模型（三）

tvm易用性是不是限制它推广的主要因素？我觉得是的！踩了无数的坑，在树莓派上部署有无数bug，官方教程，民间教程通通不靠谱。tvm git仓库频繁更新，却没有出一个完善的使用文档，太奇怪了。在英特尔cpu上还很慢，瞬间不想在树莓派上玩了，可能优化参数没配置好吧。记得某位tvm使用者说的话，使用tvm项目周期不可控，对这句话有了更深刻理解，现在只想说，NCNN真香~！出了三篇文章想在树莓派上玩tvm的，暂时不想搞了，以后有机会再把未完的部分补上！

2024-04-17 20:44:33 745 2

原创使用TVM在树莓派部署yolov8模型（二）

这部分主要记录部署环境的搭建。在电脑或服务器上编译，需要搭建完整的TVM工具链；树莓派上仅负责运行，因此只编译runtime即可。

2024-04-16 12:14:05 866

原创使用TVM在树莓派部署yolov8模型（一）

从咸鱼淘了一个树莓派4/4G设备,测试一下TVM优化的yolov8模型在嵌入式端的推理速度.

2024-04-14 17:50:09 735

原创用Gold-yolo模块改进yolov8模型

Gold-Yolo是华为诺亚方舟实验室2023年发布的工作，主要优化检测模型的neck模块。论文上展示的效果挺棒的, 打算引入到yolov8中,替换原有的neck层.目标检测模型一般都是分成3个部分，backbone,neck,head，其中neck部分,主要是类似fpn的结构，将不同层级的特征进行融合。

2024-04-13 11:23:04 4049 10

原创 yolov8模型结构改进方法

根据模块类型，将其添加到对应位置，清晰明了。通过此方法可以快速搭建新模型架构。接下来只需填充配置文件及对应参数就好。具体实施过程，参考下一篇将gold引入yolov8的文章。

2024-04-13 10:51:12 3261

原创 Grounding DINO论文解读与代码调试

该模型2023.4月发布，是较新，效果很好的Open-Set Object Detection模型，很好玩，但直接做zero-shot还达不到工业部署的水平。我对它的整体评价也如GLIP一样。虽然比GLIP有提升，但效果还有继续提升空间。

2024-03-12 15:33:21 8665 7

原创 GLIP代码调试与效果分析

如果图中没有提示词物品, 可能会强行安利一个不能处理太长的句子, 会超出理解范围提示词很重要, 检测不到的物品, 可能换个表达就能检测出来了.作为开集检测模型, GLIP还是非常优秀的, 比如零样本检测. 还可以实现视频检测任务. 快速自动标注等,至于检测精度, 还不能与有监督算法相比.对于工业部署, zero-shot还是算了, 薛定谔的检测结果不太靠谱. 微调后应该会好很多.

2024-03-09 17:36:43 4162 62

原创 Multi-attentional Deepfake Detection论文代码复现

原作者放出的代码缺少使用说明, 跑通都很困难. 这里对源码做了修改,主要是两方面:论文链接:论文源码链接:魔改代码链接。

2024-02-23 17:23:25 1811 11

原创记录常用的docker命令(持续更新...)

这是制作镜像, 封装服务并交付的环节. 工作中,项目开发完后, 交付给下一级部门和客户就是通过这种方式.容器内跑程序, 容器外监控整个容器的内存/CPU使用情况, 从而达到性能测试的目的。docker技术很多,但工作中用到的就那么几个, 整理下经常用到的.

2024-02-21 10:10:12 426 1

原创手撕transformer代码

transformer是nlp领域重要创新，被应用到cv领域后更是迅速火爆，在Python包pyitcast已经实现好了transformer模型，为了深刻理解模型各个细节，这里重新手动实现一遍。重要参考：12345关于理论部分，上面列举参考讲的非常好，我写不出更好的文字解读，就直接推荐别人的吧。

2024-01-18 09:42:59 753 1

原创手动复现论文Dynamic Inconsistency Learning for DeepFake Video Detection

论文Delving into the Local: Dynamic Inconsistency Learning for DeepFake VideoDetection(以下简称DILD)是STIL(Spatiotemporal Inconsistency Learning for DeepFake VideoDetection)升级版, 同一作者, 两篇论文都来自腾讯优图实验室, 其中STIL有公开源码, 但DILD没有, 详细阅读原文后, 觉得是一个很好的idea, 因此手动复现了论文模型。

2023-09-27 14:44:47 938 12

原创细说TensorRT C++模型部署4

至此, 关于tensorRT部署 C++部分全部写完了,这份代码是按自己的想法来写, 我认为部署代码就该是这个样子的. 这里放出的代码仅是涉及主体思想部分代码,希望对大家工作有所帮助,篇幅所限,还有很多辅助代码没贴出来, 可以去github看完整代码. 如果在阅读过程有好的建议,请在评论区留言,我们共同进步, 这也是写这个系列博文的初衷.这些仍然是C++代码, 下面使用pybind11封装,在python中调用,pybind11是个很棒的工具,使用方法这里不赘述了。在initEngine中提到的。

2023-09-03 16:36:09 550

安川最新系列YRC1000使用说明书

空空如也