reesn-CSDN博客

原创 copaw梳理

CoPaw是一个多功能的个人AI助手系统，采用分层架构设计，支持多渠道通信。系统包含五层架构：用户层（支持多种通信平台）、应用层（FastAPI动态路由）、核心Agent层（内置工具和记忆管理）、支撑服务层（模型和安全模块）以及基础设施层。核心功能包括动态Agent路由、安全拦截、记忆管理和技能扩展。系统通过Workspace机制实现多Agent独立运行，每个实例拥有完整的运行时组件。后端服务采用FastAPI框架，支持模型热加载和指令处理，内置多种通信渠道管理模块。整体设计强调灵活性、安全性和可扩展性，支

2026-03-19 10:40:00 470

原创 qwen3.5moe架构梳理

Qwen3_5_MoE是一种多模态混合专家模型，主要包含以下特性：1) 采用256位专家和Top-8路由机制；2) 结合视觉编码器(27层CNN)和语言模型(40层Transformer)；3) 支持图片(248056)、视频(248057)等特殊token处理；4) 使用3D RoPE位置编码和动态KV缓存；5) 混合标准注意力与线性注意力层。模型继承自Qwen3VL架构，包含Qwen3_5MoeForConditionalGeneration等入口类，支持多模态输入处理和生成任务。初始化过程采用特殊参数

2026-03-13 12:04:44 458

原创 torch编写基础类介绍

计算等价与手动+矩阵乘法的数学计算逻辑完全一致，都是自注意力的Query/Key/Value线性变换；工程更优nn.Linear是PyTorch为线性变换设计的工程化实现，解决了手动实现的初始化、封装、参数注册等问题；训练更稳：Xavier初始化是nn.Linear的核心优势，也是原文推荐替换的最主要原因，尤其在深度模型（如Transformer）中，初始化的优劣直接决定模型能否收敛。后续在Transformer的多头注意力、编码器/解码器实现中，所有的线性变换都会采用nn.Linear。

2026-03-07 12:30:05 306

原创 deepseek问答

DeepSeek-R1与R1-Zero在训练过程上存在显著差异：R1-Zero采用纯强化学习路线，直接从基座模型开始训练，具有推理能力强、训练成本低的优势，但存在可读性差、非推理任务表现弱等问题；而R1通过SFT+RL多阶段训练，结合结构化数据和多维奖励机制，实现了推理能力与可读性的平衡。R1-Zero的核心价值在于验证纯RL可独立催生强推理能力，为后续研究提供基准。在创意写作方面，R1通过内化思维链机制和高效模式识别，能快速生成更有趣的内容。此外，R1摒弃传统外部搜索方法，通过GRPO算法实现模型内化推理

2026-03-07 12:29:41 341

原创多模态模型问答

BLIP-2 不直接用视觉 token，是因为它冻结 LLM，而原始视觉 token 存在分布不匹配、序列过长、空间不对齐三大问题，会破坏冻结 LLM 的稳定性与生成能力。BLIP-2 冻结 ViT 和 LLM、只训练 Q-Former，核心动机是在不破坏预训练视觉与语言能力的前提下，用最低成本实现视觉与语言的对齐。基于已经预训练好的模态编码器、模态解码器、文本大模型做多模态模型，多模态预训练和多模态微调两个阶段分别需要什么数据，需要冻结模型的哪些参数？人类对不熟悉的界面操作较慢，但对熟悉的界面操作很快。

2026-03-07 12:29:16 357

原创提示工程与实用问答

摘要：参数设置指南：翻译任务（精确性）：T=0.1-0.3，top_p=0.1-0.3 创意写作（流畅性）：T=0.6-0.9，top_p=0.8-0.95 头脑风暴（多样性）：T=0.9-1.2，top_p=0.9-1.0 参数验证方法：固定测试集设计参数网格多维度评估（忠实度/创意度/多样性等）核心问题解答： T=0仍有不确定性的原因：采样策略叠加、硬件非确定性、概率平局减少幻觉方法：强制引用来源、分步思考、角色约束提示词模板要素：角色定义、背景、任务、约束、格式、示例高级技巧：提示

2026-03-07 12:28:50 459

原创思维链模型训练问答

在MCTS（蒙特卡洛树搜索）中，平衡探索与利用的关键在于UCT（Upper Confidence Bound for Trees）公式：选择策略：UCT = 节点平均奖励 + c * sqrt(ln(父节点访问次数)/当前节点访问次数) 利用：由“节点平均奖励”主导，倾向于选择当前高收益路径。探索：由右侧探索项（c * sqrt(...)）主导，鼓励访问次数少的节点，c为超参数调节权重。适用场景：探索优先：早期或复杂分支（c调大），避免局部最优。利用优先：后期或明确高收益路径（c调小），快速收敛。

2026-03-07 12:28:16 190

原创生成模型微调问答

摘要：针对Llama-3 70B模型的微调问题，建议采用QLoRA方法调整输出风格为微信聊天式简洁表达，需10-30万条对话数据和安全合规数据。验证文本生成真实性可通过内容匹配度、提示词控制力和风格一致性判断。QLoRA的分块量化通过局部定制化解决信息损失问题。企业知识库SFT需将知识转化为问答对，数据量取决于知识库规模和模型大小。微调时需注意结束标记</s>的重要性，超参数设置建议学习率1e-5~5e-5（全参数）或1e-4~3e-4（LoRA），rank值4-128根据任务复杂度选择，通过验

2026-03-06 15:10:45 258

原创 RAG系统问答

RAG优化核心要点文档分块原因：突破模型窗口限制，提升检索精度和效率，避免信息过载。通过重叠分块、添加上下文头信息、结构化分层和多块召回解决上下文缺失问题。采用层级检索、父子块关联和图谱RAG处理跨片段依赖。检索效果优化：调整分块策略（大小/重叠/语义切分），清洗索引内容，采用混合检索（向量+关键词）。优化查询端（改写/上下文增强）和召回排序（增加召回数+重排序）。选择合适索引类型并调整参数。矛盾解决：并行建立向量索引（语义）和倒排索引（关键词），通过加权融合实现互补。重排序模型弥补向量检索精度不足，

2026-03-06 15:09:23 292

原创嵌入模型训练问答

摘要：对比学习通过同时定义类内紧凑和类间分离，能更有效捕捉文本语义。构建高质量负例需结合真实样本挖掘、规则生成和模型生成，难负例是关键。双编码器适合大规模检索，交叉编码器适合精确重排序。损失函数选择需考虑任务特性，TSDAE采用特殊词元优于平均池化，因其能更好适配无监督训练目标。相比有监督方法，无监督预训练在跨领域场景中具有数据需求低、泛化能力强等优势。MTEB相比STSB扩展了任务覆盖范围，提供更全面的嵌入能力评估。

2026-03-06 15:08:01 365

原创嵌入词与模型问答

文章摘要：本文探讨了自然语言处理中的多个关键问题。首先比较了词包模型（BoW）与Tokenizer的区别，指出BoW忽略词序而Tokenizer保留词序，并解释了BPE作为Tokenizer核心算法的原理。接着分析了Transformer编码器与解码器的差异及其各自的应用场景，以及GPT与原始Transformer架构的区别。文章还讨论了大模型上下文长度的限制原因、预训练与微调的重要性、Llama-3的性能提升方法等话题。最后解释了现代分词器的优势、大模型对话历史处理方法以及word2vec中负采样的作用

2026-03-06 15:06:16 339

原创嵌入模型分类问答

文本分类与主题建模技术总结文本分类方法嵌入向量分类：通过表示模型生成嵌入向量后接入分类头，根据数据量选择冻结或微调策略生成模型直接分类：适用于零样本场景，但速度慢、成本高混合方法：结合生成模型打标和表示模型训练，特别适合少量标注数据场景主题建模技术传统方法：LDA（长文本）、BTM（短文本）、NMF（快速稳定）现代方法： BERTopic：完整流程，语义理解强，适合各类文本 Top2Vec：端到端，自动聚类垂直领域优先选择BERTopic，可结合领域专用嵌入模型技术选型建议长文档：BER

2026-03-06 15:03:54 401

原创 celery 使用说明

Celery是一个分布式任务队列系统，主要由broker（消息代理）和worker（任务执行器）两大组件构成。示例中使用Redis作为broker和结果后端，worker负责轮询队列、执行任务并存储结果。任务流转系统包含四个关键部分：任务定义（使用@celery_app.task装饰器）、Celery配置（实例化Celery应用并设置参数）、消息存储（Redis）和任务触发（通过delay()或apply_async()调用）。任务状态由Celery自动管理（PENDING→STARTED→SUCCESS/

2026-01-19 22:14:54 689 1

原创模型转ONNX流程指南

PyTorch模型部署与ONNX转换实践本文系统介绍了PyTorch模型部署的关键技术与ONNX转换实践。主要内容包括： PyTorch部署痛点：动态图结构不利于优化，需要中间表示(IR)如TorchScript和ONNX实现高效部署。 JIT编译方式：追踪法(torch.jit.trace)：记录单次执行路径，适合静态模型脚本化(torch.jit.script)：解析Python语法，支持控制流 ONNX转换流程：通过torch.onnx.export将PyTorch模型转为ONNX格式，涉及计算

2026-01-08 22:05:00 667

原创 FP8模型反量化讲解

本文介绍了将FP8量化权重转换为FP16模型的方法。主要内容包括：1）提供了可直接运行的反量化代码实现，通过加载safetensors文件、收集scale张量、进行反量化计算等步骤；2）解析了反量化核心技术原理，包括FP8量化格式识别、scale值匹配和权重还原等关键过程；3）总结了实操中常见问题及优化建议，如scale值匹配失败处理、数据类型转换优化等。该方案可有效将FP8量化模型转换为FP16精度模型，同时保留必要配置文件，确保模型可正常加载和推理。

2026-01-05 22:21:59 932

原创大模型训练中的正则化技术全解析

摘要：正则化技术是防止大模型过拟合的关键方法，主要包括L2正则化和Dropout两种核心机制。L2正则化通过在损失函数中增加权重平方惩罚项，迫使模型参数变小，从而获得更平滑、泛化能力更强的解。Dropout则通过随机屏蔽神经元，打破神经元间的共适应关系，等效训练多个子模型集成。两者从不同角度提升模型鲁棒性：L2正则化约束参数空间，Dropout改变网络结构。现代实现多采用Inverted Dropout，训练时缩放激活值，推理时直接使用完整网络，简化部署流程。这些技术共同确保大模型既能拟合数据又能保持泛化

2025-12-23 22:30:18 692

原创 nanochat 三模型结构详解

nanochat模型采用基于Transformer的decoder-only架构，核心组件包括嵌入层、多层Block模块和输出层。其中Block模块集成了因果自注意力机制（CausalSelfAttention）和多层感知机（MLP），通过残差连接增强梯度流动。模型创新性采用分组查询注意力（GQA）机制，在保持性能的同时降低计算开销。前向传播时支持训练阶段的并行计算和推理时的KV缓存优化，通过旋转位置编码增强位置敏感性。这种架构设计既保证了语言建模能力，又优化了计算效率，实现了序列内并行和批次间并行的训练加

2025-11-15 15:14:32 811

原创 nanochat 基础训练讲解二

摘要：本文介绍了nanochat训练框架的两个核心组件：数据加载和优化器配置。数据加载部分通过tokenizing_distributed_data_loader函数实现流式数据读取和分词处理，支持分布式训练，关键点包括BOS标记的使用、Token缓冲机制和批次生成逻辑。优化器配置部分采用setup_optimizers函数实现参数分组优化，将参数分为矩阵、嵌入和语言模型头三组，分别应用Muon和AdamW优化器，并引入模型维度相关的学习率缩放机制(dmodel_lr_scale)以保持训练稳定性。两组件共

2025-11-12 22:05:26 986

原创 nanochat大语言模型讲解一

摘要：本文详细解析了nanochat大模型项目的训练设置与关键技术点。核心训练参数包括：矩阵学习率（0.02）实现参数差异化更新、梯度裁剪（阈值1.0）防止梯度爆炸、学习率调度（final_lr_frac=0.0）实现动态调整。模型采用meta设备初始化高效部署，支持混合精度（BF16）加速训练。训练轮数通过三级策略确定：直接指定＞目标FLOPs计算＞数据-参数比例计算，其中目标参数比（如Chinchilla的20）控制训练数据量。关键配置体现了大模型训练中对计算效率、稳定性和资源优化的平衡。

2025-11-08 17:56:59 912

原创 gguf量化说明

GGUF量化是一种直接对模型参数进行量化的方法，无需额外推理或微调。该方法通过分块处理权重矩阵（32或256个权重/块），并独立计算各块缩放因子，有效减少量化误差。K-Quants进一步优化该过程，通过增加高精度参数（如缩放因子和最小值）提升精度。GGUF支持混合精度，对关键层（如词嵌入层）保持更高精度。量化工具基于CPU运行，需将整个模型加载到内存，内存需求略大于原始模型大小。该方法通过数值优化算法最小化量化误差，确保精度稳定性。

2025-10-22 22:04:10 510 1

原创 vllm 消费级显卡运行节约显存说明

vLLM是一个高效的大语言模型推理开源工具，采用PagedAttention和连续批处理技术提升显存利用率和推理效率。实验显示在14GB显存显卡上运行Qwen3-VL-4B-Instruct模型时，合理配置max-model-len等参数可优化资源使用。建议max-num-seqs设为1-2，gpu-memory-utilization设为0.95，避免使用cpu-offload-gb等影响性能的参数。部署时推荐手动安装flash-attn和flashinfer-python等加速库。低显存设备（<1

2025-10-18 15:38:10 618

原创 llm模型训练防遗忘与同义词训练理解

摘要：大模型训练面临"灾难性遗忘"问题，需采用持续学习策略管理参数更新。核心方法包括预训练后分阶段微调：首次微调采用混合高质量数据与LoRA等技术；二次微调精选旧数据与新业务数据混合。同义词理解通过显式定义与隐式语境验证结合实现。渐进式训练（如图像到视频）通过分阶段优化提升效率。这些策略共同确保模型在获得新能力时不丢失原有知识，实现参数更新的有效管理。（148字）

2025-10-12 20:57:33 463

原创 deepseek3.2 exp注意力优化机制DSA

DeepSeek-V3.2-Exp引入了DSA（DeepSeek Sparse Attention）稀疏注意力机制，在MLA（Multi-head Latent Attention）低秩压缩的基础上进一步优化长序列处理。DSA通过闪电索引器动态计算token相关性，仅选择最相关的k个token进行注意力计算，将复杂度从O(L²)降至O(Lk)。该机制采用两阶段训练：先稠密训练对齐索引器，再稀疏优化模型参数。DSA保留了MLA的压缩优势，结合稀疏计算显著提升了长文本处理的效率和内存利用率，同时保持模型性能。

2025-10-12 14:50:29 934

原创 Qwen3-Omni多模态prompt输入解析

Qwen3-Omni是一种端到端多模态基础模型，能够处理文本、图像、音频和视频输入，并生成文本和语音响应。文章通过代码示例展示了该模型的推理流程，重点分析了其多模态数据处理机制。模型采用Thinker-Talker架构设计，其中Thinker模块负责多模态内容的融合处理，Talker模块负责语音生成。在推理过程中，模型首先通过处理器整合多模态输入，然后由Thinker生成中间表示，最后可选择性地由Talker转换为语音输出。该模型架构体现了多模态大模型与传统单模态文本生成模型的显著区别。

2025-09-27 16:54:03 816

原创 Qwen3-80B-A3B混合注意力机制

本文探讨了注意力机制的发展与优化，重点分析了多头注意力(MHA)、多查询注意力(MQA)和分组查询注意力(GQA)的特点及适用场景。同时介绍了阿里Qwen3-Next-80B-A3B模型采用的创新混合注意力机制，该机制结合标准注意力与改进的线性注意力，通过Gated DeltaNet和门控机制解决线性注意力在全局特征捕捉上的不足。其中，线性注意力利用核函数和矩阵结合律将复杂度降至O(L)，而Delta规则和门控机制则增强了记忆更新的精确性和灵活性。实验表明，3:1的线性注意力与标准注意力混合使用能有效平衡计

2025-09-13 17:38:48 1012

原创 unsloth微调gemma3图文代码简析

本文展示了如何使用unsloth库对Gemma-3-4B模型进行微调。代码首先加载本地已下载的4bit量化模型，然后通过FastVisionModel.from_pretrained函数检查模型架构，自动判断是否为视觉语言模型(VLM)并选择相应的处理器。模型加载后，用户配置LoRA参数，包括是否微调视觉层、语言层等模块，并设置相关超参数。内部逻辑通过正则表达式匹配需要微调的模块名称，最终将这些模块配置到LoRA训练中。整个过程实现了高效的内存利用和灵活的模块化微调设置。

2025-09-11 22:58:21 239

原创 IndexTTS2安装说明

摘要：IndexTTS2是哔哩哔哩2025年9月发布的首个支持精确时长控制的自回归TTS模型，具备情感语音合成能力。项目提供GitHub开源代码，详细说明了安装流程：需配置Git LFS、UV包管理工具，推荐使用国内镜像源安装依赖。模型文件可通过Hugging Face或魔搭平台下载，需注意CUDA驱动版本匹配问题。安装过程中如遇CUDA报错，建议通过NVIDIA官网下载对应版本的Toolkit，文中提供了具体的安装指令和版本检查方法。（150字）

2025-09-10 22:24:32 2055

原创 RAG召回策略说明

本文介绍了RAG（检索增强生成）的核心流程，包括查询向量化、召回、重排序和生成四个阶段。重点分析了双塔模型（Bi-Encoder）在召回阶段的应用，其通过独立编码查询和文档实现高效检索，并支持离线预计算。同时对比了双塔模型与交叉编码器（Cross Encoder）的差异：前者适合快速粗筛，后者用于精准重排序但计算成本高。实际应用中通常采用两阶段策略，先通过双塔模型快速召回候选结果，再使用交叉编码器进行精细重排序，兼顾效率与准确性。这种组合方案能有效提升对话型RAG系统的性能。

2025-09-06 16:35:15 788

原创混元模型接入openmanus尝试

摘要：OpenManus是基于ReAct框架的开源工具，通过推理-行动-观察循环完成任务。本文介绍了如何将混元模型(hunyuan-vision)接入该工具，包括修改配置文件(app/llm.py)添加模型支持、调整对话格式适配模型限制。展示了三个使用场景：1)本地文件创建与修改；2)联网检索电影信息；3)Python代码执行验证。工具能有效分解任务并调用相应功能，但也存在网页操作受限等局限性。演示案例包括文件操作完整流程、网络搜索实现和斐波那契数列代码执行验证。

2025-08-27 09:21:18 284

原创 langchain-chatchat对话逻辑解析

本文分析了langchain-chatchat工具中agent模型的实现逻辑。重点解析了qwen agent的工作流程：从用户请求入口到创建agent实例，再到执行多步骤推理。关键点包括：1）使用plan-execute模式构建agent；2）通过循环判断和迭代步骤实现多轮工具调用；3）最终将工具结果转换为可返回的响应格式。文章特别指出在agent模式下需要手动添加历史上下文关联，并对核心的plan函数和工具调用流程进行了详细说明。

2025-08-24 19:24:49 894

原创 transformer 的多头注意力计算说明

摘要：Transformer的多头注意力机制通过将输入向量拆分为多个子空间（注意力头），使模型能够从不同维度捕捉序列依赖关系。每个头独立计算注意力分数，处理特定子空间的特征（如语法、语义等），最后合并结果形成综合表示。这种设计并非截断信息，而是通过线性变换将高维特征分解到多个子空间，各头专注不同特征组合，最终合并实现更全面的信息融合。多头协作机制使模型能同时关注语法结构、语义关联等多角度依赖关系，相比单一头计算能更丰富地表达复杂模式。子空间的划分和特征组合由模型训练过程自动学习优化。

2025-08-05 20:36:52 1062

原创 LLM 大语言模型 RoPE 相对位置编码综述

本文系统探讨了Transformer架构中的位置编码技术，重点分析了传统绝对位置编码的局限性和RoPE（Rotary Position Embedding）的创新优势。传统正弦余弦编码存在频谱混淆、长程衰减等问题，而RoPE通过复数空间旋转操作实现绝对位置到相对关系的映射，解决了语义稀释和位置信息保持的难题。文章详细解析了RoPE的复数空间映射、旋转操作、分块对角矩阵等核心技术，并展示了其在主流模型中的工程实现。最后指出，RoPE已成为现代大语言模型的事实标准，未来在动态频谱调控和多模态统一编码方面具有发展

2025-08-03 16:57:45 1174

jni nation解说

modbus说明

影院售票系统（部分代码）

超市收银系统（信息存储部分我用的集合，不能真正存储）

空空如也