kimi-222-CSDN博客

原创 Qwen‑VLM

组件作用视觉编码器将图像转成视觉向量文本编码将文字转成语言向量融合层/投影将视觉向量映射进语言空间Transformer（交叉注意力）实现文字与视觉之间的信息交互联合预训练让模型学会图文之间的深层联系通过这种组合，Qwen‑VLM 能够在同一个 Transformer 内部处理和融合视觉与语言信息，实现联合理解与生成。

2026-06-09 11:02:11 182

原创企业级 Agent 服务

工具元数据 & 注册表意图识别 + 工具路由层模型结构化输出（纯描述，不执行）执行层（运行工具 + 并发 +错误治理）计划/执行分离 + 失败回环逻辑上下文与状态管理系统安全、审计、监控、可控性保障层。

2026-06-09 10:34:49 303

原创 LangChain 里的 chatmodel.bind_tools 和 ReAct Agent

工具少、快速原型→ 直接用。工具多、复杂流程、容易出错→ 用bind_tools + LangGraph 自定义节点，结合：动态筛选工具异步执行 + 超时控制异常捕获 + 重试结果回馈模型（近似 ReAct 循环）ReAct 是快速上手的方案，bind_tools 是工业级可控方案。当你有 200+ 工具和可能出错时，推荐自定义 LangGraph + bind_tools。

2026-06-09 09:51:45 345

原创 LangGraph 的状态机编排能力与 Skills 的可复用能力结合

遵循规范是基础：无论内部使用还是开源，建议遵循SKILL.md+ 文件夹的规范，这能让你无缝接入社区生态（如 LangChain 官方 Skills）-3-8。从单技能开始验证：可以先让 LangGraph 调用一个简单的 Skill 走通流程，再逐步增加 Skills 数量和路由决策的复杂度。善用检查点：利用或实现任务的断点续传和对话记忆，这对长任务场景非常重要-4。

2026-04-27 12:20:19 506

原创 Claude Code如何使用？

安装 Git（可选）安装 Node安装 Claude Code。

2026-04-26 23:24:22 448

特性CLIPQwen-VL架构类型双塔编码器单塔解码器（LM）模态交互仅在输出层（点积）在每一层（注意力机制）训练任务对比学习语言建模是否生成文本否是适用任务检索、分类、匹配对话、描述、VQA、推理特性纯文本 LLMVL 模型（如 Qwen-VL）架构仅 LM Decoder输入文本 token视觉 token + 文本 token（拼接）训练数据纯文本图文对 + 纯文本（混合）优势通用对话、推理、写作图像/视频理解、多模态问答劣势。

2026-04-22 14:09:06 491

原创 vLLM 引擎（vLLM Engine）的所有配置参数

vLLM 引擎（vLLM Engine）的所有配置参数。vLLM 是一个用于大语言模型（LLM）高性能推理的库。这些参数用于控制 vLLM 的行为，无论是在（使用LLM类）还是（使用vllm serve命令）中。为了便于理解，我将这些参数按功能分组，并解释其核心作用。

2026-04-16 14:09:25 511

原创在调用大模型时，确保输出结果可复现、稳定一致的关键

在调用大模型时，固定随机数种子是确保输出结果可复现、稳定一致的关键操作。这通常需要从三个层面协同设置：模型调用参数、推理框架环境和底层计算库。

2026-04-16 13:34:15 309

原创 MinerU 能够准确识别并提取 PDF 中的图文、表格、公式等复杂元素

return_content_list: true # 返回结构化内容（方便程序处理）lang_list: ["ch"] # 中文文档（根据实际调整）{"type": "text", "content": "段落文字..."},return_original_file: true # 包含原文件（ZIP模式）lang_list: ["east_slavic"] # 俄语、白俄语、乌克兰语。return_middle_json: false # 中间结果（调试用）

2026-04-13 11:02:44 544

原创如何让大语言模型稳定输出 JSON 的三层防御体系

维度Pydantic 校验 (第三道防线)OpenAI Structured Outputs (第二道防线)执行时机模型生成之后模型生成过程之中类比质检员带卡槽的模具适用场景所有模型、老版本 API、极端自定义校验闭源商业 API (OpenAI, 火山等)优点灵活，能捕获业务逻辑错误，能自修复零格式错误，速度快，Token 省。

2026-04-10 09:35:07 347

原创 Neo4j CQL 核心命令与操作

MATCH (n:`西游`) RETURN id(n), n.name, n.tail, n.relation。MATCH (n:`西游`) RETURN n LIMIT 2 -- 前两行。WHERE n.name = '孙悟空' OR n.name = '猪八戒'MATCH (n:person {name:"沙僧"})<-[r]-(m)MATCH (n:`西游`) RETURN n LIMIT 25。可返回节点和关联关系的某些属性或所有属性。可返回节点的某些属性或所有属性。

2026-04-09 14:09:03 397

原创 Neo4j 可视化工具和产品

和。Neo4j 浏览器是面向开发人员的工具，允许开发人员执行Cypher查询并可视化结果，它是Neo4j数据库的企业版和社区版的默认开发人员界面。Neo4j Bloom是一种商业许可的产品，允许用户使用自然语言浏览其图数据。我们将在这里简要讨论每个关键细节。如上所述，Neo4j浏览器是现成的，具有Neo4j的所有图数据库产品，包括Neo4j Server（社区版和企业版）和Neo4j Desktop（所有OS版本）。

2026-04-09 10:29:11 350

原创 AI编程工具对比：Cursor、Copilot、Trae与Claude Code，开发者该如何选择？

AI编程工具不会取代程序员，但会用AI的程序员会取代不用AI的程序员。选择哪款工具，其实是在选择你与AI协作的方式。是让AI做你的副驾驶（Copilot），还是成为你的结对程序员（Cursor/Trae），抑或是交付任务的项目经理（Claude Code）？

2026-04-03 09:43:51 1170

原创 “全量微调”（Full Fine-Tuning）用8张48G 的L20显卡来微调32b(fp16/bf16)的模型，只能用deepseed的zero3

策略单卡显存需求估算 (32B FP16)8x48G L20 是否可行原因ZeRO-1~144 GB不可行模型权重(64G)+梯度(64G) 远超单卡48GZeRO-2~88 GB不可行模型权重(64G) 远超单卡48GZeRO-3~32 GB + 激活值可行权重分片后仅占8G，留出空间给激活值QLoRA~15 GB极佳权重量化+参数冻结，显存充裕，速度快结论只能（或者说必须）使用来进行全量微调，因为它是唯一能将 64GB 的模型权重切分并装入 48GB 显存的技术。

2026-02-27 15:46:43 991

原创 Qwen32B 全量微调和LoRA显存占用对比

Qwen2.5-32B 全量微调：硬件门槛极高，适合有大规模集群、追求极限性能的场景。Qwen2.5-32B + LoRA 微调：硬件门槛适中，适合资源有限的情况。在效果与全量微调非常接近的情况下，显存需求降至1/4，是微调 32B 级别模型的首选方案。

2026-02-27 00:17:50 1059

原创在 AutoDL 容器内安装 PostgreSQL + pgvector

编译它需要 PostgreSQL 的开发环境（pg_config工具），但 AutoDL 容器默认没有安装 PostgreSQL。

2026-02-22 21:51:01 352

原创 LLaMA Factory: 一站式大模型高效微调平台

启动Web UI。

2026-01-30 16:56:46 337

原创多轮对话历史管理

需求实现方式多用户隔离自动过期ttl=86400参数限制轮数继承LTRIM生产部署用长期记忆额外将问答存入 FAISS/Milvus建议：短期会话用 LangChain + Redis；长期语义记忆用 RAG + 向量库。两者互补！# 截断：只保留最近 max_messages 条。

2026-01-18 00:09:30 788

原创 KV Cache（键值缓存）技术

在自回归模型（如Transformer解码器）中，生成文本时是逐个token进行的。每次生成新token时，注意力机制需要计算当前token与之前所有token之间的关系，这涉及大量的矩阵运算。由于计算复杂度随序列长度增长而急剧上升（例如，预测第1001个token时需处理1000×1000的QK矩阵），效率会显著下降。：KV Cache是一种“用内存换取速度”的优化技巧，通过存储历史K和V的计算结果，避免在每一步都重新计算整个注意力矩阵，显著提升了自回归模型的推理效率。为提升推理速度，引入了。

2026-01-06 15:11:35 705

原创 Accelerate 是由 Hugging Face 开发的一个轻量级 Python 库，旨在让 PyTorch 的分布式训练变得极其简单

传统 DDP使用 Accelerate需写一行全搞定多进程启动需torchrun或mp.spawn直接混合精度、梯度累积代码复杂参数化配置即可保存模型需处理module.前缀自动处理accelerate= PyTorch 分布式训练的“胶水层”它不改变你的训练逻辑，只帮你自动处理设备、并行、精度、同步等底层细节，让你专注模型和算法本身。

2026-01-05 23:34:48 1355

原创 LLM多卡并行计算：Accelerate、DeepSpeed

需求推荐方案快速微调 7B 模型全量训练 13B+ 模型极限显存压缩企业级生产训练最佳实践组合DeepSpeed（训练） + vLLM（推理） + LoRA（微调）实现从训练到部署的全链路高效闭环。

2026-01-05 01:28:15 729

原创大模型推理model.generate()+tokenizer.decode() 、model(**input)

问题能不能直接得到“故事结尾”？能不能（只得到当前输入的预测）能不能控制每一步采样？有限（依赖 generate 参数）完全可控能不能用于训练？不能可以（配合 labels 计算 loss）性能开销较高（多次前向）较低（单次前向）方法功能输入输出是否涉及GPU计算完整生成：一次性生成多token文本是单步推理：计算一次前向传播Logits(概率分布)是文本转换：将token ID转成文本字符串(String)否（CPU操作）

2026-01-03 22:29:43 365

原创 DataCollator

这样既利用了 HF 的高效 padding，又确保 loss 只在 assistant 回复上计算。（如 T5、BART、Flan-T5、Qwen2-VL 的文本部分）设计。，然后仍可用此 collator（因它会保留已有 labels），将 user/system 部分设为。通用 padding 工具，适用于。"user\n你好"

2026-01-03 22:25:09 1011

原创 tokenizer.apply_chat_template()

是 Hugging Face 库中用于将对话历史（messages）格式化为模型可接受的输入文本的关键方法，尤其在使用 Chat 模型（如 Qwen、Llama-3、ChatGLM、Phi-3 等）时必不可少。将结构化的对话列表（如）→ 转换为模型训练/推理时使用的带特殊 token 的字符串（如）。输出示例（Qwen3 格式）：关键参数说明参数类型说明对话历史，每个 dict 含（user

2026-01-03 20:44:52 501

原创模型量化（Quantization）、推理时的反量化（Dequantization）以及显存使用动态性

问题答案int4 模型反量化成 float16 会不会爆显存？不会，因为反量化是临时、分块、按需的显存主要被什么占用？激活值、KV Cache、临时计算缓冲区，不是全量权重为什么 int4 能在小显存跑大模型？存储省 75%，计算时只临时展开小块Ollama / llama.cpp 如何做到的？GGUF + 高效分块反量化 + 内核优化int4 加载 → 推理时局部反量化 → 显存依然满足。如果你用的是 8GB 显卡跑，这正是量化 + 优化推理引擎带来的红利！

2026-01-03 00:34:36 911

原创在 Hugging Face Transformers 库中，AutoModel 及其变体

类别模型架构典型任务输出头示例模型AutoModel任意特征提取无编码器 or 编码器-解码器文本分类分类头解码器 only自回归生成LM 头（因果）编码器-解码器序列生成（翻译/摘要）LM 头（非因果，decoder侧）T5, BART。

2025-12-31 13:01:33 790

原创 Transformer 模型中位置编码（Positional Encoding, PE）

表示：对输入序列加上了对应位置编码，并保留原始 shape。

2025-12-29 23:23:42 606

原创 RAG-语义切片 +混合检索（BM2.5、向量）+ 多查询检索

技术作用价值语义切片提升上下文连贯性中文专用模型本地部署，性能好Milvus向量数据库支持亿级扩展混合检索兼顾关键词与语义查询扩展提升召回率整体架构属于“现代 RAG 三阶优化”语义切片（预处理）混合检索（召回）多查询扩展（增强召回）

2025-12-28 17:27:15 12045

原创 LangChain 中不同方式的检索增强

组件类型是否依赖 LLM主要作用优势局限稀疏关键词检索否精确关键词匹配快速、可解释无语义理解混合检索框架否（但可集成 LLM 检索器）融合多种检索结果兼顾精度与泛化需调权重、去重查询扩展增强器是扩展用户查询，提升召回解决模糊查询依赖 LLM 成本/质量。

2025-12-28 12:18:48 746

原创基于 LangChain 的 RAG（检索增强生成）

方式特点适用场景简单快捷，一键完成快速原型、学习演示手动构建 RAG 链控制力强，可调试，支持复杂逻辑生产环境、需要溯源、优化性能。

2025-12-27 13:19:08 474

原创 LangChain 将数据加载到 Chroma 向量数据库

特性from_texts输入类型List[str]元数据支持需通过metadatas参数传入自动从提取适用场景简单文本，快速原型使用 LangChain 加载器后的标准流程是否推荐用于生产较少（除非数据简单）推荐（结构清晰，可扩展性强）

2025-12-27 13:09:59 363

原创 LangChain 中的文档加载器和文本分割器

【代码】LangChain 中的文档加载器（PyMuPDFLoader）和文本分割器（RecursiveCharacterTextSplitter）来处理 PDF 文档。

2025-12-27 00:27:37 377

原创 LLM 生成 → 输出 Markdown 文本

只需粘贴你的 Markdown 文本，即可下载为 Excel/CSV/HTML 格式。这样既利用了 LLM 的生成能力，又保证了数据的结构化和可操作性。生成的 HTML 可直接用于 Web 页面渲染。只需要确保格式正确（列对齐行。存在），就会自动显示为表格。进阶处理：确保数据类型正确。

2025-12-26 21:35:04 366

原创 llm.with_structured_output

是 LangChain 中一个非常强大且便捷的方法，用于强制大模型输出符合特定格式的数据（如 JSON、Pydantic 对象），而不是返回普通的文本字符串。该方法会在底层通过以下两种方式之一工作（取决于模型支持情况）：这是最常用、最健壮的方式。利用 Pydantic 进行数据校验，能确保类型正确（例如金额必须是，日期必须是）。步骤：代码示例：3. 进阶用法：处理复杂结构 (嵌套与列表)在招投标场景中，往往需要提取一个列表（例如：评分表中的多条明细，或多个产品清单）。Pydantic 完美支持

2025-12-26 20:41:21 543

原创 LangGraph 流式处理（streaming）

工具@tool"""获取城市天气"""return f"{city}今天晴，25°C"# 节点return {# 构建图。

2025-12-25 17:32:33 378

原创 langgraph 构建一个带工具调用的简单 Agent 工作流

HumanMessage(content='今天上海的天气怎么样?', additional_kwargs={}, response_metadata={}, id='ef338c50-e6bf-4726-887e-7c4ad8699726')LangChain 的。

2025-12-25 11:25:33 298

原创 create_tool_calling_agent中采用ConversationBufferMemory

功能上：没有任何区别，只是名字不同。建议如果你正在构建新的 LCEL 应用，或者参考最新的 LangChain 文档，推荐使用 chat_history，因为它语义更清晰（明确表示是聊天消息列表）关键配置。

2025-12-23 17:37:39 363

原创 create_tool_calling_agent、create_react_agent区别

如果你使用的是 GPT-3.5/4、Claude 3 等先进模型：请优先使用。它是现代的标准，错误率更低，体验更好。如果你使用的是早期的开源模型（如 Llama-2, Vicuna）或者模型不支持 API 级别的工具调用：你需要使用（或者），通过提示词技巧来强制模型调用工具。

2025-12-23 16:45:10 1144

原创对比ConversationBufferMemory、InMemoryChatMessageHistory

特性所属库（旧）（新）输出格式字符串（默认）或消息始终是消息列表推荐程度⚠️ 已弃用✅ 官方推荐配合方式持久化不支持不支持# 1. 初始化模型# 2. 定义输入 schema"""计算加法的输入参数"""a: int = Field(description="第一个数字")b: int = Field(description="第二个数字")# 3. 定义工具"""计算二数之和"""# 使用 StructuredTool 创建工具description="计算二数之和。

2025-12-23 16:37:46 1130