- 博客(577)
- 资源 (14)
- 收藏
- 关注
原创 大模型有监督微调(从原理到代码实现)
本文详细阐述了在大语言模型(LLM)上进行监督微调(Supervised Fine-Tuning, SFT)的完整技术流程,涵盖目标定义、数据构建、多任务混合、训练策略与损失计算等核心环节。SFT 的核心目标是在具备基础语言能力的预训练模型上,通过 “指令 - 回答” 标注数据让模型学会按照人类期望的格式与风格生成回答,为后续的对齐优化(如 RLHF/DPO/PPO)奠定基础。
2026-01-18 21:13:40
11
原创 大语言模型预训练基础
本文系统阐述了大模型预训练的核心方法与实践要点。首先分析了两种基础语言建模范式:因果语言建模(CausalLM)和掩码语言建模(MaskedLM),对比了它们在训练目标、信息利用和任务适应性等方面的差异。其次详细介绍了预训练全流程,包括分词器训练、模型结构选择、学习率调度、多阶段训练策略等关键技术,特别强调了中文场景下的优化方法。最后探讨了模型缩放定律(ScalingLaw)的应用规律,以及模型蒸馏技术(包括特征蒸馏、自蒸馏等)在平衡模型性能与部署成本方面的重要作用。全文为大模型训练提供了系统的工程实践指导
2026-01-18 15:42:22
49
原创 大模型预训练从理论到代码实现:tokenizer的预训练
BPE分词器是一种数据驱动的子词分词方法,通过统计高频相邻单元对逐步构建词汇表。其核心流程包括初始化基础单元、统计频次、合并最高频对并迭代更新词汇表。文章以中文案例演示了BPE的分词过程,并提供了基于HuggingFace库的完整训练代码实现,包括数据预处理、模型训练、特殊Token配置和结果验证。代码采用生成器读取大数据,支持多语言处理,并确保训练可复现性。最终生成的Tokenizer可用于自然语言处理任务,支持对话模板等高级功能。
2026-01-18 15:40:15
186
原创 分布式预训练
本文系统阐述了深度学习的四种主流并行计算机制:数据并行(DP)、张量并行(TP)、流水线并行(PP)和专家并行(EP)。重点剖析了数据并行的实现方案,包括参数服务器框架及其异步更新优化策略,以及PyTorch分布式数据并行(DDP)基于Ring-AllReduce的通讯优化机制。详细介绍了DeepSpeed ZeRO优化方案,通过分片存储参数、梯度和优化器状态,显著降低显存占用。文章深入分析了各并行机制的核心原理、执行流程、优缺点及适用场景,为大规模深度学习模型训练提供了系统的并行计算解决方案。
2026-01-15 20:49:23
111
原创 MoE, Repeat Layer, MoR
混合专家模型(MoE)通过将传统Transformer的FFN层替换为多个专家组件,配合路由器实现稀疏激活,在提升模型容量的同时控制计算成本。MoE的核心在于专家均衡分配和路由策略优化,包括Softmax Top-k、Switch等多种方法。RepeatLayer技术通过参数共享和层复用显著降低显存占用,如ALBERT和Relaxed Recursive Transformers等模型所示。MoR架构结合递归Transformer、自适应深度选择和KV缓存优化,实现了参数效率、计算效率和显存占用的三重优化。
2026-01-13 19:53:02
27
原创 注意力优化与高效推理
摘要:本文探讨了大模型推理中的KVCache优化技术及其最新进展。KVCache通过缓存注意力计算中的Key和Value矩阵,避免了重复计算,显著提升了推理效率。文章详细分析了KVCache的工作原理,并介绍了三种前沿优化方法:PagedAttention的显存分页管理、SpeculativeDecoding的大小模型协同推理,以及FlashAttention的高效注意力计算。通过基准测试对比了不同配置下的性能表现,结果表明采用KVCache+SDPA(特别是FlashAttention)的组合能获得最佳性
2026-01-09 21:21:20
44
原创 Agentic RAG
AI Agent技术解析与应用实践 本文系统介绍了AI Agent的核心概念、技术架构及典型应用场景。AI Agent是一种基于大语言模型的智能代理系统,具备自主规划、执行任务的能力,由LLM大脑、记忆系统、规划能力和外部工具四大组件构成。文章详细分析了四种工作流程(FunctionCall、ReAct、PlanAndSolve、ReWOO)的实现原理和代码示例,并重点讲解了MCP协议如何标准化AI与外部工具的对接。最后探讨了Agentic RAG技术,包括单Agent和多Agent架构在检索增强生成中的应
2026-01-05 16:44:54
29
原创 基于知识图谱的RAG
图(Graph)是由节点(顶点)和边组成的数据结构,可表示各类关系与结构(如地铁路线图、社交网络好友关系)。知识图谱(Knowledge Graph, KG)是用“图”结构表示知识的方式,由实体(节点)和关系(边)组成,能将零散信息抽象为结构化形式,支持机器理解、推理和查询。知识图谱的核心表示形式是三元组:(实体1)—[关系]→(实体2)。例如“阿基米德—[发现]→浮力原理”,通过这种网络结构实现知识的存储、查询与推理。
2025-12-23 16:48:19
49
原创 RAG企业级知识库的多样性需求及应对策略
企业级知识库解决方案摘要 本文提出了一套完整的企业级知识库解决方案,重点解决权限管理、共享方式和安全保障三大核心需求。在权限管理方面,支持部门级隔离和细粒度访问控制,通过标签系统和元数据实现RBAC/ABAC权限模型。在共享方式上,采用算法注册器和文档分组机制,实现知识库与算法的灵活适配。安全保障方面,提供敏感词过滤、全链路加密和私有化部署方案。系统架构采用模块化设计,支持多知识库联合检索、意图识别和会话隔离,并通过电商场景案例验证了方案的可行性。该方案有效解决了企业知识管理中的数据安全、灵活共享和高并发访
2025-12-20 16:09:20
62
原创 多模态RAG--能够应用于图片表格的RAG系统
多模态RAG(检索增强生成)技术突破传统文本限制,实现文本、图像、音频等多模态数据的检索与融合生成。其核心在于跨模态对齐与融合,通过多模态嵌入技术将异源数据映射到统一向量空间。关键技术包括:多模态编码器(CLIP等模型实现跨模态编码)、多模态检索器(支持跨模态匹配)和多模态生成器(输出复合内容)。针对PDF等复杂文档,需先进行多模态解析(文本/图像/表格提取),再通过统一嵌入或模态转换实现向量化。优化技巧包括文本补全、结构化QA生成、上下文增强和领域微调等。新兴的ColPali范式提出页级别联合编码,简化了
2025-12-18 21:19:49
124
原创 蒸馏Deepseek打造思维能力更强的RAG系统
DeepSeek-R1是一款针对复杂推理任务优化的AI模型,其核心优势包括高效推理、本地化部署支持和多领域推理能力。该模型基于思维链(CoT)强化技术,通过四阶段训练流程(强化学习验证、数据合成、混合微调和蒸馏实验)提升推理能力。DeepSeek-R1支持通过LazyLLM进行在线调用和本地部署,本地部署需要至少2个节点、16张A100显卡。测试显示,该模型在需要上下文支撑的任务中表现较好,但在精确信息抽取任务中不如Qwen2-7B简洁准确。
2025-12-17 21:29:17
58
原创 RAG性能优化指南:从冷启动到响应加速
针对高维向量数据(文本嵌入、图像特征等非结构化数据)构建的索引,核心目标是加速相似度检索(找到与查询向量最相似的 Top-K 向量)。
2025-12-16 21:52:27
99
原创 CUDA 中的Transpose与数据排布优化
本文探讨了CUDA编程中共享显存的Bank冲突问题及其优化方案。首先分析了Bank冲突的成因:当线程束内多个线程访问同一Bank的不同地址时,会导致访问效率下降。通过矩阵转置案例,对比了三种实现方案:1)无共享显存的基准版本存在全局显存带宽浪费;2)使用共享显存但存在Bank冲突的版本;3)通过共享显存填充(IPAD=1)彻底消除Bank冲突的优化版本。实验结果表明,优化后的版本性能显著提升,验证了Bank冲突对CUDA程序性能的重要影响。文章详细阐述了Bank索引计算方式、冲突条件及优化原理,为CUDA性
2025-12-16 16:31:38
50
原创 通过微调提升RAG系统的回复质量
本文探讨了RAG系统中大语言模型(LLM)的关键影响及优化方案。研究指出LLM在垂直领域存在三大瓶颈:专业术语解析障碍、长尾知识缺失和领域推理能力局限;结构化输出控制薄弱导致格式漂移和幻觉干扰;本地部署环境限制模型性能。针对这些问题,提出了基于LoRA的微调解决方案,包括监督微调(SFT)和领域自适应方法。通过实验验证,微调后的7B参数模型在特定任务上可媲美未调优的70B参数模型。同时研究了Embedding模型的微调方法,提升语义检索精度。研究提供了完整的微调流程、评测指标和RAG系统集成方案,为优化垂直
2025-12-14 16:11:45
46
原创 RAG 系统效果评测与检索优化
摘要:本文系统介绍了RAG(检索增强生成)系统的评估方法与优化策略。RAG通过检索组件获取外部知识,再由生成组件合成答案,有效缓解大模型幻觉问题。评估框架涵盖检索和生成全链路,核心指标包括召回率、上下文相关性(检索组件)以及忠诚度、答案相关性(生成组件)。重点探讨了提升检索效果的四大策略:查询重写(扩写/子问题/多步骤查询)、检索优化(节点组构造/表征方式/相似度计算)、重排序(两阶段精筛)和多路召回(多查询多策略融合)。通过理论推导和实例分析,为构建"检索准、生成稳"的高效RAG系统提
2025-12-04 20:39:34
62
原创 基于LazyLLM的Reader 组件解析 HTML、PDF 等复杂文档格式(RAG)
本文介绍了LazyLLM框架中Reader模块的使用与自定义方法。Reader作为RAG流程的文档入口,支持13种常见格式解析,并能将不同格式统一转换为Node类型。文章详细讲解了默认Reader的使用方法,并针对特殊需求提供了三种自定义方案:函数式Reader(如HTML解析)、类式Reader(如图片描述生成)以及复杂PDF解析Reader。其中重点阐述了基于magic-pdf工具的高级PDF解析实现,包括表格结构化处理、图片提取和跨页内容合并等功能。最后通过HTML知识库案例展示了完整RAG流程构建,
2025-12-02 21:20:13
103
原创 CUDA原子操作
原子操作通过硬件支持,保证 **“读 - 改 - 写” 操作不可分割 **(执行期间目标内存地址被锁定,其他线程无法访问),从而避免数据竞争。时,若 “读 - 改 - 写” 操作不具备原子性(即操作过程可被其他线程中断),会引发。),因 “读 - 改 - 写” 被线程切换中断,导致结果错误。直方图用于统计数据分布(8-bit 灰度图中,的出现次数),多线程统计需原子操作避免竞争。(初始值 0),多线程执行。当多个线程并发访问并修改。,导致结果不符合预期。
2025-12-01 21:38:28
45
原创 CodeTree: Agent-guided Tree Search for Code Generation with LargeLanguage Models
本文提出CodeTree,一种基于树搜索和多代理协作的代码生成框架。通过引入思考者、求解者和调试者三个专用代理,配合批评者代理指导的树扩展策略,CodeTree能高效探索代码空间并优化解决方案。实验表明,在HumanEval+、MBPP+等基准测试中,该方法显著优于现有基线,特别是在竞赛级任务上提升达22.4%。分析显示广度优先搜索策略更有效,且批评者代理的节点评估功能对性能提升至关重要。该方法在有限生成预算下展现出色效率,并能适应存储库级代码补丁生成等复杂任务。
2025-11-30 17:39:29
35
原创 Cuda 矩阵乘法逻辑
本文系统介绍了CUDA矩阵乘法优化方法,从基础实现到多级优化。首先分析cuBLAS库的矩阵乘法原理,指出行主序与列主序的转换技巧。随后详细阐述三种优化方案:1)原始并行实现,每个线程计算一个输出元素;2)共享内存优化,通过分块减少全局内存访问;3)ThreadTile技术,提升指令级并行性。重点讨论了向量化加载和双缓冲队列优化,通过寄存器级流水和乒乓缓冲机制实现计算与访存重叠。实验结果表明,优化后性能达到1683.8 GFLOPS,较基础实现提升显著。文章包含完整的数学推导、代码实现和性能分析,为GPU矩阵
2025-11-27 20:23:47
88
原创 SimpleDoc: Multi-Modal Document Understanding with Dual-Cue PageRetrieval and Iterative Refinement
文档视觉问答(DocVQA)是一项实用但充满挑战的任务,其目标是在文档中跨越多页、融合图像和表格等多种模态信息的基础上提出问题并作答。为处理多模态信息,近期方法多采用“检索增强生成”(RAG)流程,但使用基于视觉语言模型(VLM)的嵌入模型将页面作为图像进行嵌入与检索,并通过可接受图像输入的VLM生成答案。本文提出SimpleDoc,一个轻量但强大的检索增强框架,用于DocVQA。它通过以下方式提升证据页面的获取效率:首先通过嵌入相似度检索候选页面,然后基于页面摘要进行筛选与重排序。
2025-11-27 19:21:02
46
原创 Multi-Agent实现混合多知识库检索
graph_kg:基于 Neo4j 图数据库的知识图谱检索节点(前文定义,擅长复杂推理)。vec_kg:基于 Milvus 向量库的传统 RAG 检索节点(上文定义,擅长精准细节问答)。chat:直接调用大模型回答通用问题。coder:执行代码任务的代理节点(示例逻辑)。sqler:处理 SQL 数据库查询的代理节点(示例逻辑)。
2025-11-19 11:45:08
44
原创 LangGraph 构建 Multi-Agent Systems
多智能体系统架构研究综述 本文探讨了AI智能体的定义争议及发展路径,重点分析了多智能体系统(MAS)架构的优势与实现方法。研究内容涵盖: OpenAI提出的五阶段AI发展路线图 单智能体架构的局限性及转向多智能体系统的必要性 LangGraph中的多智能体通信架构(Network/Supervisor/Hierarchical) 子图(Subgraphs)技术实现跨代理状态共享 基于Network和Supervisor架构的具体实现方案 商业智能分析场景下的多代理协作实践 研究结果表明,多智能体系统通过专业
2025-11-18 16:50:44
43
原创 LangGraph 中 Human-in-the-loop
摘要:本文探讨了在自主AI Agent系统中实现"人工介入关键节点"(HIL)的技术方案,主要基于LangGraph框架构建。针对Agent可能执行高风险操作(如删除数据库)的问题,提出通过断点机制在关键节点暂停流程,实现人工审批后再继续执行。具体实现包括:(1)使用checkpointer组件持久化状态;(2)通过interrupt_before/after参数设置断点;(3)支持三种交互模式:批准、编辑和输入。文章还提供了代码示例,展示如何在不同场景(如工具调用)中动态触发人工审核机
2025-11-17 20:06:44
66
原创 LangGraph 实现长短期记忆管理
文章摘要: LangGraph框架为AIAgent设计了两种记忆机制:短期记忆存储单次对话的中间状态,通过Checkpointer(如MemorySaver、SqliteSaver)实现;长期记忆通过数据库实现跨对话知识共享。其中,SqliteSaver支持同步/异步模式,可将检查点持久化到SQLite数据库或内存,并通过thread_id区分不同对话流。文章详细介绍了如何通过SqliteSaver为ReactAgent添加记忆功能,包括工具定义、检查点集成和异步场景实现,展示了如何利用上下文管理和线程隔离
2025-11-17 11:11:31
146
原创 LangGraph 事件流的应用
本文介绍了基于LangGraph框架的流式输出实现方法,重点探讨了在复杂AI工作流中提升用户体验的技术方案。主要内容包括:1)通过token流式传输缓解大模型响应延迟问题,展示了LangChain中AIMessageChunk对象的处理方式;2)详细解析LangGraph的多种流式模式(values/updates/debug/messages),并通过天气查询案例演示数据库操作与API调用的集成;3)介绍astream_events方法实现细粒度事件监控,支持按需过滤模型调用、数据处理等关键节点。这些技术
2025-11-15 13:42:46
40
原创 ReAct 框架实现(基于langgraph)
摘要:本文介绍了ReAct自治循环代理的技术原理及LangGraph实现方案。该代理架构通过多步骤决策和多工具访问能力,解决了传统代理在复杂任务中的局限性。基于LangGraph框架,利用大模型在while循环中重复调用工具的核心机制,构建了包含Toolcalling、Memory和Planning三大能力的自治系统。文章详细阐述了天气查询案例的开发流程,包括四个工具的实现(实时天气API、MySQL存储、数据库查询、网络检索)以及LangGraph中构建状态图、路由函数、模型交互等关键步骤,最终形成可处理
2025-11-14 19:45:04
311
原创 LangGraph 工具调用代理(Tool Calling Agent)
摘要:ToolCallingAgent是基于RouterAgent扩展的AI代理架构,支持大模型自主调用工具完成分支任务。其核心组件ToolNode作为LangGraph预构建的工具执行节点,需满足三个条件:状态包含消息列表、最后一条为AIMessage且必须包含tool_calls字段。开发者需先定义工具函数(如网络检索、天气查询),通过@tool装饰器添加元数据,再将工具绑定到大模型(如GPT-4),使其能生成符合格式的tool_calls指令。该架构实现了自然语言与外部系统的标准化交互。
2025-11-14 17:51:54
64
原创 路由代理(Router Agent)的原理与实现
本文介绍了LangGraph中代理架构的高级开发方法,重点阐述了路由代理(RouterAgent)的核心原理及实现方式。通过条件边(conditional edges)机制,LangGraph支持根据状态(state)动态选择执行路径,并详细讲解了add_conditional_edges方法的使用。文章还深入分析了三种结构化输出方式:提示工程、提示工程+输出解析器以及内置工具方法with_structured_output(),其中特别介绍了使用Pydantic、TypedDict和JSONSchema实
2025-11-13 10:51:39
84
原创 LangGraph应用程序运维监控
LangSmith是大模型应用的监控调试平台,由LangChain团队开发,提供轨迹跟踪、日志记录和实时分析功能。其核心结构包含项目(Project)、轨迹(Traces)、运行(Runs)及辅助元数据。用户需注册账号并配置环境变量后即可使用,示例展示了如何通过LangGraph构建状态图实现聊天机器人功能,包括定义状态类、初始化大模型、添加节点边并实现流式交互。该工具有效解决了大模型应用开发中的调试和监控需求。
2025-11-13 10:00:26
39
原创 LangGraph 中 State 状态模式详解
LangGraph框架通过节点、边和状态的组合构建AI代理,其中状态(State)作为核心载体实现信息传递和功能支撑。状态采用共享字典数据结构,节点可读写状态并广播更新,确保数据流动。框架支持多种可视化方法(Mermaid/Graphviz/Pyppeteer)展现节点关系。Reducer函数机制允许为状态键定义独立更新逻辑(覆盖/累加等),结合TypedDict保障类型安全,适用于对话历史管理等场景。专用MessageGraph子类通过add_messages Reducer智能合并消息列表,优化对话应用
2025-11-12 21:45:16
209
原创 LangGraph 底层原理详细整理
LangGraph是一个基于LangChain表达式语言(LCEL)构建的AIAgent开发框架,支持多种主流大模型集成。其核心特性包括:1)采用循环图结构,通过节点(Nodes)和边(Edges)构建复杂工作流;2)引入共享状态管理机制(State),实现节点间的动态数据传递与更新;3)支持条件分支、循环等复杂逻辑控制;4)提供持久化和断点续传功能。框架包含Graph基类(管理基础图结构)和StateGraph(扩展状态管理)两个核心组件,开发者可通过简单的函数定义节点逻辑,并通过add_edge等方法构
2025-11-11 19:43:41
80
原创 基于 LangChain+RAG+MCP 的 Agent 核心原理与落地路径
本文介绍了使用LangChain构建本地知识库的系统流程,分为5个关键步骤:1)初始化核心组件,配置大模型、嵌入工具和向量数据库;2)加载本地文档并标准化处理;3)文档分块优化检索效率;4)构建向量知识库;5)通过RAG流程实现检索增强查询。系统将知识库封装为server端,提供rag_query接口,并通过client端实现工具调用和问答交互。整个方案采用模块化设计,支持多种文件类型和模型适配,具有扩展性强、答案可溯源等特点,可用于构建基于本地知识的智能问答系统。
2025-11-09 20:53:43
92
原创 GraphRag+MCP 技术栈实战:高性能 Agent 开发全解析
摘要:本文介绍了GraphRAG知识图谱的安装使用及服务端封装方法。首先说明GraphRAG的两种版本(微软官方版和国内大模型适配版)的安装方式,以及创建索引的基本命令。重点阐述如何将GraphRAG封装为API服务,包括三个关键步骤:1) 定义核心数据表常量并区分必选/可选文件;2) 实现数据加载逻辑,通过StorageFactory加载Parquet文件;3) 封装查询接口,调用local_search实现查询功能。最后提及初始化MCP服务框架,将GraphRAG集成到FastMCP服务中。
2025-11-08 14:57:46
60
原创 用 MCP 重构 RAG 智能体:3 步解决数据安全与多工具协同难题
MCP(ModelContextProtocol)是基于JSON-RPC2.0的开放标准协议,用于安全连接AI工具与数据源。其核心价值在于支持LLM智能体构建复杂工作流,提供预构建集成、跨厂商灵活性和数据安全保障。相比FunctionCall,MCP采用异步交互模式,具有标准化协议和多线程协作优势。 MCP+RAG+Agent架构将RAG服务工具化,通过MCP协议实现标准化对接。开发流程包括Server初始化、工具注册、业务逻辑实现和启动通信。客户端则负责连接服务端、协同大模型决策调用工具并整合结果。该架构
2025-11-07 16:36:12
156
原创 Adaptive Activation Steering: A Tuning-Free LLM TruthfulnessImprovement Method for Diverse Hallucin
大型语言模型(LLMs)在基于网络的应用中展示了显著的潜力[1, 34, 35, 48]。然而,尽管它们表现出流利性,却经常生成虚假陈述,或“幻觉”。这些幻觉对于构建负责任的网络构成了重大挑战,因为它们在医疗或法律咨询等应用中可能极其有害,在这些领域中高真实性是至关重要的[24, 31]。最近,一些研究人员指出,即使LLMs在训练答案中拥有正确的知识,它们也不总是提供真实的答案。例如,Wei等人[50]发现,ChatGPT可能在一个上下文中提供错误答案,而在另一个上下文中提供正确答案。
2025-11-03 09:59:29
39
原创 Steering Llama 2 via Contrastive Activation Addition
本文研究对比激活添加(CAA)技术对Llama2系列语言模型的行为调节效果。通过构建包含7种对齐相关行为的对比数据集,研究者在7B和13B参数的Llama2Chat模型上生成引导向量,发现CAA能有效调节多项选择和开放式生成任务中的目标行为。实验表明,CAA的效果优于系统提示,并能与监督微调互补,且对模型的一般能力(如MMLU基准测试)影响不显著。分析显示引导向量能捕捉语义相关标记的行为特征,且不同层的向量具有传递性。该技术为语言模型对齐提供了一种计算高效的新方法,但需注意保持生成文本质量与行为调节效果的平
2025-10-28 13:07:22
132
原创 Beyond Prompt Engineering: Robust Behavior Control in LLMs viaSteering Target Atoms
《引导目标原子(STA):大型语言模型精确行为控制新方法》 本文提出了一种基于稀疏自编码器(SAE)的引导目标原子(STA)方法,用于精确控制大型语言模型(LLMs)的行为。传统提示工程依赖专家设计且对微小变化敏感,而STA通过直接操作模型前向传播中的神经元激活实现更精细控制。实验表明,STA在安全控制任务中显著提升防御成功率(如Gemma-2-9B-it从83.89%提升至97.56%),且对模型通用能力影响较小。分析显示,中间层干预效果更优,且STA仅需少量样本即可生成有效引导向量。与提示工程相比,ST
2025-10-22 10:25:10
58
原创 Memory Decoder: A Pretrained, Plug-and-PlayMemory for Large Language Models
本文提出MemoryDecoder(MemDec),一种即插即用的预训练记忆模块,用于高效适配大型语言模型(LLMs)到特定领域。传统方法如领域适应预训练(DAPT)计算成本高且易导致灾难性遗忘,而检索增强生成(RAG)则带来显著推理开销。MemDec通过预训练小型Transformer解码器模仿非参数检索器的输出分布,实现即插即用适配,无需修改原始模型参数。实验表明,单个MemDec可适配多个模型架构,在生物医学、金融和法律领域均提升性能,同时保持推理效率(仅增加1.28倍延迟)。MemDec在知识密集型
2025-10-21 11:27:20
97
原创 Cuda reduce算子实现与优化
本文分析了CUDA并行归约计算的优化思路。原始归约方法存在线程闲置、线程束分歧和存储体冲突等问题,导致性能受限。优化方案通过warpReduce函数实现:1)采用无分支执行消除线程束分化;2)保持全线程参与避免闲置;3)利用寄存器级通信(__shfl_down_sync)替代共享内存访问,规避存储体冲突。这些改进使同一warp内的32个线程能同步执行相同操作,显著提升了并行计算效率。最终实现了更高效的GPU归约计算模式。
2025-10-20 21:11:08
114
人工智能+Vectornet源码详解+博客资源
2023-01-01
博客资源:clip-demo测试效果展示
2022-10-22
博客资源+pandas相关代码
2022-10-14
博客资源+seaborn相关操作
2022-10-14
博客资源+Matplotlib绘图的基本使用
2022-10-14
数学建模+时间序列预测+LSTM+股票数据分析
2022-07-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅