自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (4)
  • 收藏
  • 关注

原创 企业级 RAG 检索系统优化实践

本文记录了在Weknora RAG系统中优化知识密集型检索的实践经验。通过对比不同模型性能,选择Qwen3-Embedding-4B(支持MRL降维)和Qwen3-Reranker-0.6B作为性价比最优组合,采用混合检索策略(向量+关键词RRF融合)和Milvus数据库,结合专业PDF解析与结构感知分块,使单库检索精确率提升5%-10%。文章还探讨了评估指标适配性,强调文档预处理的重要性,并提供了完整的配置方案和调优建议,为类似场景下的RAG系统优化提供了可复用的方法论。

2026-06-14 10:53:04 286

原创 Claude Code 工作流教程

而动态工作流和并行 Task 的引入,则彻底解决了大规模探索性任务的效率瓶颈。1. `Task(subagent="codebase-scanner", prompt="扫描 /src 下的所有数据访问层代码,总结当前 ORM 使用情况,输出到 docs/research/orm.md")`4. `Task(subagent="best-practice", prompt="搜索最近两年的微服务拆分案例,总结 3 条可复用的设计模式,输出到 docs/research/patterns.md")`

2026-05-29 20:48:28 277

原创 agent并行多代码模块开发思考

文档与知识沉淀 Agent,这个 Agent 的核心定位不是“写代码注释”,而是“提炼上下文,反哺人类与系统”。必须引入不写代码、只做审查的 Agent。四、 关键问题应对策略 1. 如何约束单一职责原则 属于语义层面,难以用纯代码精确断言,采用“物理特征截断 + AI 兜底”策略: 物理截断:在 Lint 工具中配置硬性阈值,一旦 Agent 写出上帝类,直接阻断。融入 Agent 循环:Agent 每次写完代码,系统自动运行这些 Lint,如果报错,直接将报错打回给 Agent 修改,不让它提交。

2026-05-24 13:32:46 353

原创 工业级 LLM 数据蒸馏:从“数据生成”到“任务工程”

【摘要】当前LLM研发的核心已从模型结构转向数据质量,关键在于通过任务工程构建高质量数据集。核心策略是从生成答案转向定义高价值任务,采用Self-Instruct方法进行递归扩展,结合约束条件和难度梯度控制。工业级实践强调多模型混合生成、风格扰动和真实数据锚定,防止模式坍塌。最终需构建覆盖多维度能力的任务体系,通过严格清洗和验证,打造高熵数据集。小团队应聚焦高价值任务密度而非规模,用数百个核心模式扩展出数万条优质数据,超越低质量大规模数据集。

2026-05-11 21:31:45 176

原创 ai llm训练数据合成说明

1、 合成数据阶段:从“生成”到“构建”结构化输出是核心:不要寄希望于模型的 Prompt 约束“自觉性”。在合成阶段,必须通过 Schema定义Pydantic或结构化协议强制模型输出格式。这能从根源上减少后续清洗的负担。元数据注入即正义:合成数据不应仅仅包含问题和答案。在合成阶段就通过 Prompt 引导模型自动生成元数据Metadata如:领域主题、难度等级、任务类型、事实性标记,是实现后续精细化分析的前提。防御性Prompt设计:针对合成任务,System Prompt。

2026-05-10 22:17:37 376

原创 ollama安装脚本问题处理

文章摘要:在更新ollama时遇到下载失败问题,通过分析安装脚本发现下载逻辑集中在download_and_extract函数。解决方案是修改该函数以支持使用本地预下载的ollama文件(.tar.zst或.tgz格式),通过设置LOCAL_OLLAMA_PATH环境变量指定文件路径即可。该方法也适用于安装后的更新操作。另提到运行gemma4:26b模型需要约14GB显存和10GB内存,建议降低上下文配置以节省资源。

2026-04-08 23:06:48 90

原创 turboquant量化技术说明

TurboQuant 的目标是把大模型推理时产生的海量数据KV Cache塞进极小的存储空间,同时还要保证数据拿出来用时依然准确。理想的量化应该是矢量量化VQ,即把一组数看成一个整体来找最优格点。通常需要为每一组数据存储额外的元数据,比如缩放比例Scale和偏移量Offset。这些元数据虽然比原始数据小,但在大规模模型中累积起来的内存开销依然非常显著。将数据坐标系从笛卡尔坐标到极坐标在极坐标下,角度的分布通常是有规律的。

2026-03-29 15:23:58 432

原创 qwen3.5 0.8B纠正任务实践

摘要:在i5+8GB内存的CPU环境下测试Qwen3.5-0.8B.Q8_0.gguf模型用于文本纠错任务时发现,opus4.6蒸馏微调版本效果最佳。针对小模型常见问题(格式偏离、无限循环),采取以下优化:1)关闭推理模式缩减提示词;2)禁用重复惩罚参数,调低temperature至0.1-0.2;3)通过logit_bias强化格式符号生成概率;4)设置最大上下文限制。实验表明,0.8B模型在量化后易受注意力稀释影响,而2B模型因量化损失反而表现更差,建议在低配环境通过限制上下文使用稍大参数模型。

2026-03-28 21:11:17 479

原创 copaw梳理

CoPaw是一个多功能的个人AI助手系统,采用分层架构设计,支持多渠道通信。系统包含五层架构:用户层(支持多种通信平台)、应用层(FastAPI动态路由)、核心Agent层(内置工具和记忆管理)、支撑服务层(模型和安全模块)以及基础设施层。核心功能包括动态Agent路由、安全拦截、记忆管理和技能扩展。系统通过Workspace机制实现多Agent独立运行,每个实例拥有完整的运行时组件。后端服务采用FastAPI框架,支持模型热加载和指令处理,内置多种通信渠道管理模块。整体设计强调灵活性、安全性和可扩展性,支

2026-03-19 10:40:00 796

原创 qwen3.5moe架构梳理

Qwen3_5_MoE是一种多模态混合专家模型,主要包含以下特性:1) 采用256位专家和Top-8路由机制;2) 结合视觉编码器(27层CNN)和语言模型(40层Transformer);3) 支持图片(248056)、视频(248057)等特殊token处理;4) 使用3D RoPE位置编码和动态KV缓存;5) 混合标准注意力与线性注意力层。模型继承自Qwen3VL架构,包含Qwen3_5MoeForConditionalGeneration等入口类,支持多模态输入处理和生成任务。初始化过程采用特殊参数

2026-03-13 12:04:44 584

原创 torch编写基础类介绍

计算等价与手动+矩阵乘法的数学计算逻辑完全一致,都是自注意力的Query/Key/Value线性变换;工程更优nn.Linear是PyTorch为线性变换设计的工程化实现,解决了手动实现的初始化、封装、参数注册等问题;训练更稳:Xavier初始化是nn.Linear的核心优势,也是原文推荐替换的最主要原因,尤其在深度模型(如Transformer)中,初始化的优劣直接决定模型能否收敛。后续在Transformer的多头注意力、编码器/解码器实现中,所有的线性变换都会采用nn.Linear。

2026-03-07 12:30:05 340

原创 deepseek问答

DeepSeek-R1与R1-Zero在训练过程上存在显著差异:R1-Zero采用纯强化学习路线,直接从基座模型开始训练,具有推理能力强、训练成本低的优势,但存在可读性差、非推理任务表现弱等问题;而R1通过SFT+RL多阶段训练,结合结构化数据和多维奖励机制,实现了推理能力与可读性的平衡。R1-Zero的核心价值在于验证纯RL可独立催生强推理能力,为后续研究提供基准。在创意写作方面,R1通过内化思维链机制和高效模式识别,能快速生成更有趣的内容。此外,R1摒弃传统外部搜索方法,通过GRPO算法实现模型内化推理

2026-03-07 12:29:41 425

原创 多模态模型问答

BLIP-2 不直接用视觉 token,是因为它冻结 LLM,而原始视觉 token 存在分布不匹配、序列过长、空间不对齐三大问题,会破坏冻结 LLM 的稳定性与生成能力。BLIP-2 冻结 ViT 和 LLM、只训练 Q-Former,核心动机是在不破坏预训练视觉与语言能力的前提下,用最低成本实现视觉与语言的对齐。基于已经预训练好的模态编码器、模态解码器、文本大模型做多模态模型,多模态预训练和多模态微调两个阶段分别需要什么数据,需要冻结模型的哪些参数?人类对不熟悉的界面操作较慢,但对熟悉的界面操作很快。

2026-03-07 12:29:16 431

原创 提示工程与实用问答

摘要: 参数设置指南: 翻译任务(精确性):T=0.1-0.3,top_p=0.1-0.3 创意写作(流畅性):T=0.6-0.9,top_p=0.8-0.95 头脑风暴(多样性):T=0.9-1.2,top_p=0.9-1.0 参数验证方法: 固定测试集 设计参数网格 多维度评估(忠实度/创意度/多样性等) 核心问题解答: T=0仍有不确定性的原因:采样策略叠加、硬件非确定性、概率平局 减少幻觉方法:强制引用来源、分步思考、角色约束 提示词模板要素:角色定义、背景、任务、约束、格式、示例 高级技巧: 提示

2026-03-07 12:28:50 512

原创 思维链模型训练问答

在MCTS(蒙特卡洛树搜索)中,平衡探索与利用的关键在于UCT(Upper Confidence Bound for Trees)公式: 选择策略:UCT = 节点平均奖励 + c * sqrt(ln(父节点访问次数)/当前节点访问次数) 利用:由“节点平均奖励”主导,倾向于选择当前高收益路径。 探索:由右侧探索项(c * sqrt(...))主导,鼓励访问次数少的节点,c为超参数调节权重。 适用场景: 探索优先:早期或复杂分支(c调大),避免局部最优。 利用优先:后期或明确高收益路径(c调小),快速收敛。

2026-03-07 12:28:16 250

原创 生成模型微调问答

摘要:针对Llama-3 70B模型的微调问题,建议采用QLoRA方法调整输出风格为微信聊天式简洁表达,需10-30万条对话数据和安全合规数据。验证文本生成真实性可通过内容匹配度、提示词控制力和风格一致性判断。QLoRA的分块量化通过局部定制化解决信息损失问题。企业知识库SFT需将知识转化为问答对,数据量取决于知识库规模和模型大小。微调时需注意结束标记</s>的重要性,超参数设置建议学习率1e-5~5e-5(全参数)或1e-4~3e-4(LoRA),rank值4-128根据任务复杂度选择,通过验

2026-03-06 15:10:45 404

原创 RAG系统问答

RAG优化核心要点 文档分块原因:突破模型窗口限制,提升检索精度和效率,避免信息过载。通过重叠分块、添加上下文头信息、结构化分层和多块召回解决上下文缺失问题。采用层级检索、父子块关联和图谱RAG处理跨片段依赖。 检索效果优化:调整分块策略(大小/重叠/语义切分),清洗索引内容,采用混合检索(向量+关键词)。优化查询端(改写/上下文增强)和召回排序(增加召回数+重排序)。选择合适索引类型并调整参数。 矛盾解决:并行建立向量索引(语义)和倒排索引(关键词),通过加权融合实现互补。重排序模型弥补向量检索精度不足,

2026-03-06 15:09:23 403

原创 嵌入模型训练问答

摘要:对比学习通过同时定义类内紧凑和类间分离,能更有效捕捉文本语义。构建高质量负例需结合真实样本挖掘、规则生成和模型生成,难负例是关键。双编码器适合大规模检索,交叉编码器适合精确重排序。损失函数选择需考虑任务特性,TSDAE采用特殊词元优于平均池化,因其能更好适配无监督训练目标。相比有监督方法,无监督预训练在跨领域场景中具有数据需求低、泛化能力强等优势。MTEB相比STSB扩展了任务覆盖范围,提供更全面的嵌入能力评估。

2026-03-06 15:08:01 388

原创 嵌入词与模型问答

文章摘要: 本文探讨了自然语言处理中的多个关键问题。首先比较了词包模型(BoW)与Tokenizer的区别,指出BoW忽略词序而Tokenizer保留词序,并解释了BPE作为Tokenizer核心算法的原理。接着分析了Transformer编码器与解码器的差异及其各自的应用场景,以及GPT与原始Transformer架构的区别。文章还讨论了大模型上下文长度的限制原因、预训练与微调的重要性、Llama-3的性能提升方法等话题。最后解释了现代分词器的优势、大模型对话历史处理方法以及word2vec中负采样的作用

2026-03-06 15:06:16 362

原创 嵌入模型分类问答

文本分类与主题建模技术总结 文本分类方法 嵌入向量分类:通过表示模型生成嵌入向量后接入分类头,根据数据量选择冻结或微调策略 生成模型直接分类:适用于零样本场景,但速度慢、成本高 混合方法:结合生成模型打标和表示模型训练,特别适合少量标注数据场景 主题建模技术 传统方法:LDA(长文本)、BTM(短文本)、NMF(快速稳定) 现代方法: BERTopic:完整流程,语义理解强,适合各类文本 Top2Vec:端到端,自动聚类 垂直领域优先选择BERTopic,可结合领域专用嵌入模型 技术选型建议 长文档:BER

2026-03-06 15:03:54 464

原创 celery 使用说明

Celery是一个分布式任务队列系统,主要由broker(消息代理)和worker(任务执行器)两大组件构成。示例中使用Redis作为broker和结果后端,worker负责轮询队列、执行任务并存储结果。任务流转系统包含四个关键部分:任务定义(使用@celery_app.task装饰器)、Celery配置(实例化Celery应用并设置参数)、消息存储(Redis)和任务触发(通过delay()或apply_async()调用)。任务状态由Celery自动管理(PENDING→STARTED→SUCCESS/

2026-01-19 22:14:54 742 1

原创 模型转ONNX流程指南

PyTorch模型部署与ONNX转换实践 本文系统介绍了PyTorch模型部署的关键技术与ONNX转换实践。主要内容包括: PyTorch部署痛点:动态图结构不利于优化,需要中间表示(IR)如TorchScript和ONNX实现高效部署。 JIT编译方式: 追踪法(torch.jit.trace):记录单次执行路径,适合静态模型 脚本化(torch.jit.script):解析Python语法,支持控制流 ONNX转换流程:通过torch.onnx.export将PyTorch模型转为ONNX格式,涉及计算

2026-01-08 22:05:00 746

原创 FP8模型反量化讲解

本文介绍了将FP8量化权重转换为FP16模型的方法。主要内容包括:1)提供了可直接运行的反量化代码实现,通过加载safetensors文件、收集scale张量、进行反量化计算等步骤;2)解析了反量化核心技术原理,包括FP8量化格式识别、scale值匹配和权重还原等关键过程;3)总结了实操中常见问题及优化建议,如scale值匹配失败处理、数据类型转换优化等。该方案可有效将FP8量化模型转换为FP16精度模型,同时保留必要配置文件,确保模型可正常加载和推理。

2026-01-05 22:21:59 1031

原创 大模型训练中的正则化技术全解析

摘要: 正则化技术是防止大模型过拟合的关键方法,主要包括L2正则化和Dropout两种核心机制。L2正则化通过在损失函数中增加权重平方惩罚项,迫使模型参数变小,从而获得更平滑、泛化能力更强的解。Dropout则通过随机屏蔽神经元,打破神经元间的共适应关系,等效训练多个子模型集成。两者从不同角度提升模型鲁棒性:L2正则化约束参数空间,Dropout改变网络结构。现代实现多采用Inverted Dropout,训练时缩放激活值,推理时直接使用完整网络,简化部署流程。这些技术共同确保大模型既能拟合数据又能保持泛化

2025-12-23 22:30:18 743

原创 nanochat 三 模型结构详解

nanochat模型采用基于Transformer的decoder-only架构,核心组件包括嵌入层、多层Block模块和输出层。其中Block模块集成了因果自注意力机制(CausalSelfAttention)和多层感知机(MLP),通过残差连接增强梯度流动。模型创新性采用分组查询注意力(GQA)机制,在保持性能的同时降低计算开销。前向传播时支持训练阶段的并行计算和推理时的KV缓存优化,通过旋转位置编码增强位置敏感性。这种架构设计既保证了语言建模能力,又优化了计算效率,实现了序列内并行和批次间并行的训练加

2025-11-15 15:14:32 845

原创 nanochat 基础训练讲解二

摘要:本文介绍了nanochat训练框架的两个核心组件:数据加载和优化器配置。数据加载部分通过tokenizing_distributed_data_loader函数实现流式数据读取和分词处理,支持分布式训练,关键点包括BOS标记的使用、Token缓冲机制和批次生成逻辑。优化器配置部分采用setup_optimizers函数实现参数分组优化,将参数分为矩阵、嵌入和语言模型头三组,分别应用Muon和AdamW优化器,并引入模型维度相关的学习率缩放机制(dmodel_lr_scale)以保持训练稳定性。两组件共

2025-11-12 22:05:26 1011

原创 nanochat大语言模型讲解一

摘要: 本文详细解析了nanochat大模型项目的训练设置与关键技术点。核心训练参数包括:矩阵学习率(0.02)实现参数差异化更新、梯度裁剪(阈值1.0)防止梯度爆炸、学习率调度(final_lr_frac=0.0)实现动态调整。模型采用meta设备初始化高效部署,支持混合精度(BF16)加速训练。训练轮数通过三级策略确定:直接指定>目标FLOPs计算>数据-参数比例计算,其中目标参数比(如Chinchilla的20)控制训练数据量。关键配置体现了大模型训练中对计算效率、稳定性和资源优化的平衡。

2025-11-08 17:56:59 957

原创 gguf量化说明

GGUF量化是一种直接对模型参数进行量化的方法,无需额外推理或微调。该方法通过分块处理权重矩阵(32或256个权重/块),并独立计算各块缩放因子,有效减少量化误差。K-Quants进一步优化该过程,通过增加高精度参数(如缩放因子和最小值)提升精度。GGUF支持混合精度,对关键层(如词嵌入层)保持更高精度。量化工具基于CPU运行,需将整个模型加载到内存,内存需求略大于原始模型大小。该方法通过数值优化算法最小化量化误差,确保精度稳定性。

2025-10-22 22:04:10 612 1

原创 vllm 消费级显卡运行节约显存说明

vLLM是一个高效的大语言模型推理开源工具,采用PagedAttention和连续批处理技术提升显存利用率和推理效率。实验显示在14GB显存显卡上运行Qwen3-VL-4B-Instruct模型时,合理配置max-model-len等参数可优化资源使用。建议max-num-seqs设为1-2,gpu-memory-utilization设为0.95,避免使用cpu-offload-gb等影响性能的参数。部署时推荐手动安装flash-attn和flashinfer-python等加速库。低显存设备(<1

2025-10-18 15:38:10 711

原创 llm模型训练防遗忘与同义词训练理解

摘要:大模型训练面临"灾难性遗忘"问题,需采用持续学习策略管理参数更新。核心方法包括预训练后分阶段微调:首次微调采用混合高质量数据与LoRA等技术;二次微调精选旧数据与新业务数据混合。同义词理解通过显式定义与隐式语境验证结合实现。渐进式训练(如图像到视频)通过分阶段优化提升效率。这些策略共同确保模型在获得新能力时不丢失原有知识,实现参数更新的有效管理。(148字)

2025-10-12 20:57:33 511

原创 deepseek3.2 exp注意力优化机制DSA

DeepSeek-V3.2-Exp引入了DSA(DeepSeek Sparse Attention)稀疏注意力机制,在MLA(Multi-head Latent Attention)低秩压缩的基础上进一步优化长序列处理。DSA通过闪电索引器动态计算token相关性,仅选择最相关的k个token进行注意力计算,将复杂度从O(L²)降至O(Lk)。该机制采用两阶段训练:先稠密训练对齐索引器,再稀疏优化模型参数。DSA保留了MLA的压缩优势,结合稀疏计算显著提升了长文本处理的效率和内存利用率,同时保持模型性能。

2025-10-12 14:50:29 1011

原创 Qwen3-Omni多模态prompt输入解析

Qwen3-Omni是一种端到端多模态基础模型,能够处理文本、图像、音频和视频输入,并生成文本和语音响应。文章通过代码示例展示了该模型的推理流程,重点分析了其多模态数据处理机制。模型采用Thinker-Talker架构设计,其中Thinker模块负责多模态内容的融合处理,Talker模块负责语音生成。在推理过程中,模型首先通过处理器整合多模态输入,然后由Thinker生成中间表示,最后可选择性地由Talker转换为语音输出。该模型架构体现了多模态大模型与传统单模态文本生成模型的显著区别。

2025-09-27 16:54:03 898

原创 Qwen3-80B-A3B混合注意力机制

本文探讨了注意力机制的发展与优化,重点分析了多头注意力(MHA)、多查询注意力(MQA)和分组查询注意力(GQA)的特点及适用场景。同时介绍了阿里Qwen3-Next-80B-A3B模型采用的创新混合注意力机制,该机制结合标准注意力与改进的线性注意力,通过Gated DeltaNet和门控机制解决线性注意力在全局特征捕捉上的不足。其中,线性注意力利用核函数和矩阵结合律将复杂度降至O(L),而Delta规则和门控机制则增强了记忆更新的精确性和灵活性。实验表明,3:1的线性注意力与标准注意力混合使用能有效平衡计

2025-09-13 17:38:48 1032

原创 unsloth微调gemma3图文代码简析

本文展示了如何使用unsloth库对Gemma-3-4B模型进行微调。代码首先加载本地已下载的4bit量化模型,然后通过FastVisionModel.from_pretrained函数检查模型架构,自动判断是否为视觉语言模型(VLM)并选择相应的处理器。模型加载后,用户配置LoRA参数,包括是否微调视觉层、语言层等模块,并设置相关超参数。内部逻辑通过正则表达式匹配需要微调的模块名称,最终将这些模块配置到LoRA训练中。整个过程实现了高效的内存利用和灵活的模块化微调设置。

2025-09-11 22:58:21 263

原创 IndexTTS2安装说明

摘要:IndexTTS2是哔哩哔哩2025年9月发布的首个支持精确时长控制的自回归TTS模型,具备情感语音合成能力。项目提供GitHub开源代码,详细说明了安装流程:需配置Git LFS、UV包管理工具,推荐使用国内镜像源安装依赖。模型文件可通过Hugging Face或魔搭平台下载,需注意CUDA驱动版本匹配问题。安装过程中如遇CUDA报错,建议通过NVIDIA官网下载对应版本的Toolkit,文中提供了具体的安装指令和版本检查方法。(150字)

2025-09-10 22:24:32 2145

原创 RAG召回策略说明

本文介绍了RAG(检索增强生成)的核心流程,包括查询向量化、召回、重排序和生成四个阶段。重点分析了双塔模型(Bi-Encoder)在召回阶段的应用,其通过独立编码查询和文档实现高效检索,并支持离线预计算。同时对比了双塔模型与交叉编码器(Cross Encoder)的差异:前者适合快速粗筛,后者用于精准重排序但计算成本高。实际应用中通常采用两阶段策略,先通过双塔模型快速召回候选结果,再使用交叉编码器进行精细重排序,兼顾效率与准确性。这种组合方案能有效提升对话型RAG系统的性能。

2025-09-06 16:35:15 860

原创 混元模型接入openmanus尝试

摘要:OpenManus是基于ReAct框架的开源工具,通过推理-行动-观察循环完成任务。本文介绍了如何将混元模型(hunyuan-vision)接入该工具,包括修改配置文件(app/llm.py)添加模型支持、调整对话格式适配模型限制。展示了三个使用场景:1)本地文件创建与修改;2)联网检索电影信息;3)Python代码执行验证。工具能有效分解任务并调用相应功能,但也存在网页操作受限等局限性。演示案例包括文件操作完整流程、网络搜索实现和斐波那契数列代码执行验证。

2025-08-27 09:21:18 289

原创 langchain-chatchat对话逻辑解析

本文分析了langchain-chatchat工具中agent模型的实现逻辑。重点解析了qwen agent的工作流程:从用户请求入口到创建agent实例,再到执行多步骤推理。关键点包括:1)使用plan-execute模式构建agent;2)通过循环判断和迭代步骤实现多轮工具调用;3)最终将工具结果转换为可返回的响应格式。文章特别指出在agent模式下需要手动添加历史上下文关联,并对核心的plan函数和工具调用流程进行了详细说明。

2025-08-24 19:24:49 923

原创 transformer 的多头注意力计算说明

摘要:Transformer的多头注意力机制通过将输入向量拆分为多个子空间(注意力头),使模型能够从不同维度捕捉序列依赖关系。每个头独立计算注意力分数,处理特定子空间的特征(如语法、语义等),最后合并结果形成综合表示。这种设计并非截断信息,而是通过线性变换将高维特征分解到多个子空间,各头专注不同特征组合,最终合并实现更全面的信息融合。多头协作机制使模型能同时关注语法结构、语义关联等多角度依赖关系,相比单一头计算能更丰富地表达复杂模式。子空间的划分和特征组合由模型训练过程自动学习优化。

2025-08-05 20:36:52 1246

原创 LLM 大语言模型 RoPE 相对位置编码综述

本文系统探讨了Transformer架构中的位置编码技术,重点分析了传统绝对位置编码的局限性和RoPE(Rotary Position Embedding)的创新优势。传统正弦余弦编码存在频谱混淆、长程衰减等问题,而RoPE通过复数空间旋转操作实现绝对位置到相对关系的映射,解决了语义稀释和位置信息保持的难题。文章详细解析了RoPE的复数空间映射、旋转操作、分块对角矩阵等核心技术,并展示了其在主流模型中的工程实现。最后指出,RoPE已成为现代大语言模型的事实标准,未来在动态频谱调控和多模态统一编码方面具有发展

2025-08-03 16:57:45 1199

数学题目ocr解析项目框架 注:主要提供方案,代码仅做样例,使用一些ai积分产出的代码

数学题目ocr解析项目框架。注:主要提供方案,代码仅做样例,使用一些ai积分产出的代码。

2026-04-03

Modbus协议目前存在用于串口、以太网以及其他支持互联网协议的网络的版本 大多数Modbus设备通信通过串口EIA-485物理层进行

Modbus协议目前存在用于串口、以太网以及其他支持互联网协议的网络的版本。 大多数Modbus设备通信通过串口EIA-485物理层进行。 对于串行连接,存在两个变种,它们在数值数据表示不同和协议细节上略有不同。Modbus RTU是一种紧凑的,采用二进制表示数据的方式,Modbus ASCII是一种人类可读的,冗长的表示方式。这两个变种都使用串行通信(serial communication)方式。RTU格式后续的命令/数据带有循环冗余校验的校验和,而ASCII格式采用纵向冗余校验的校验和。被配置为RTU变种的节点不会和设置为ASCII变种的节点通信,反之亦然。

2018-10-09

jni nation解说

jni nation解说

2016-10-30

影院售票系统(部分代码)

影院售票系统(部分代码)

2016-10-29

超市收银系统(信息存储部分我用的集合,不能真正存储)

超市收银系统(信息存储部分我用的集合,不能真正存储)

2016-10-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除