自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(568)
  • 资源 (9)
  • 收藏
  • 关注

原创 RAG企业级知识库的多样性需求及应对策略

企业级知识库解决方案摘要 本文提出了一套完整的企业级知识库解决方案,重点解决权限管理、共享方式和安全保障三大核心需求。在权限管理方面,支持部门级隔离和细粒度访问控制,通过标签系统和元数据实现RBAC/ABAC权限模型。在共享方式上,采用算法注册器和文档分组机制,实现知识库与算法的灵活适配。安全保障方面,提供敏感词过滤、全链路加密和私有化部署方案。系统架构采用模块化设计,支持多知识库联合检索、意图识别和会话隔离,并通过电商场景案例验证了方案的可行性。该方案有效解决了企业知识管理中的数据安全、灵活共享和高并发访

2025-12-20 16:09:20 19

原创 多模态RAG--能够应用于图片表格的RAG系统

多模态RAG(检索增强生成)技术突破传统文本限制,实现文本、图像、音频等多模态数据的检索与融合生成。其核心在于跨模态对齐与融合,通过多模态嵌入技术将异源数据映射到统一向量空间。关键技术包括:多模态编码器(CLIP等模型实现跨模态编码)、多模态检索器(支持跨模态匹配)和多模态生成器(输出复合内容)。针对PDF等复杂文档,需先进行多模态解析(文本/图像/表格提取),再通过统一嵌入或模态转换实现向量化。优化技巧包括文本补全、结构化QA生成、上下文增强和领域微调等。新兴的ColPali范式提出页级别联合编码,简化了

2025-12-18 21:19:49 27

原创 蒸馏Deepseek打造思维能力更强的RAG系统

DeepSeek-R1是一款针对复杂推理任务优化的AI模型,其核心优势包括高效推理、本地化部署支持和多领域推理能力。该模型基于思维链(CoT)强化技术,通过四阶段训练流程(强化学习验证、数据合成、混合微调和蒸馏实验)提升推理能力。DeepSeek-R1支持通过LazyLLM进行在线调用和本地部署,本地部署需要至少2个节点、16张A100显卡。测试显示,该模型在需要上下文支撑的任务中表现较好,但在精确信息抽取任务中不如Qwen2-7B简洁准确。

2025-12-17 21:29:17 20

原创 RAG性能优化指南:从冷启动到响应加速

针对高维向量数据(文本嵌入、图像特征等非结构化数据)构建的索引,核心目标是加速相似度检索(找到与查询向量最相似的 Top-K 向量)。

2025-12-16 21:52:27 49

原创 CUDA 中的Transpose与数据排布优化

本文探讨了CUDA编程中共享显存的Bank冲突问题及其优化方案。首先分析了Bank冲突的成因:当线程束内多个线程访问同一Bank的不同地址时,会导致访问效率下降。通过矩阵转置案例,对比了三种实现方案:1)无共享显存的基准版本存在全局显存带宽浪费;2)使用共享显存但存在Bank冲突的版本;3)通过共享显存填充(IPAD=1)彻底消除Bank冲突的优化版本。实验结果表明,优化后的版本性能显著提升,验证了Bank冲突对CUDA程序性能的重要影响。文章详细阐述了Bank索引计算方式、冲突条件及优化原理,为CUDA性

2025-12-16 16:31:38 16

原创 通过微调提升RAG系统的回复质量

本文探讨了RAG系统中大语言模型(LLM)的关键影响及优化方案。研究指出LLM在垂直领域存在三大瓶颈:专业术语解析障碍、长尾知识缺失和领域推理能力局限;结构化输出控制薄弱导致格式漂移和幻觉干扰;本地部署环境限制模型性能。针对这些问题,提出了基于LoRA的微调解决方案,包括监督微调(SFT)和领域自适应方法。通过实验验证,微调后的7B参数模型在特定任务上可媲美未调优的70B参数模型。同时研究了Embedding模型的微调方法,提升语义检索精度。研究提供了完整的微调流程、评测指标和RAG系统集成方案,为优化垂直

2025-12-14 16:11:45 25

原创 RAG 系统效果评测与检索优化

摘要:本文系统介绍了RAG(检索增强生成)系统的评估方法与优化策略。RAG通过检索组件获取外部知识,再由生成组件合成答案,有效缓解大模型幻觉问题。评估框架涵盖检索和生成全链路,核心指标包括召回率、上下文相关性(检索组件)以及忠诚度、答案相关性(生成组件)。重点探讨了提升检索效果的四大策略:查询重写(扩写/子问题/多步骤查询)、检索优化(节点组构造/表征方式/相似度计算)、重排序(两阶段精筛)和多路召回(多查询多策略融合)。通过理论推导和实例分析,为构建"检索准、生成稳"的高效RAG系统提

2025-12-04 20:39:34 34

原创 基于LazyLLM的Reader 组件解析 HTML、PDF 等复杂文档格式(RAG)

本文介绍了LazyLLM框架中Reader模块的使用与自定义方法。Reader作为RAG流程的文档入口,支持13种常见格式解析,并能将不同格式统一转换为Node类型。文章详细讲解了默认Reader的使用方法,并针对特殊需求提供了三种自定义方案:函数式Reader(如HTML解析)、类式Reader(如图片描述生成)以及复杂PDF解析Reader。其中重点阐述了基于magic-pdf工具的高级PDF解析实现,包括表格结构化处理、图片提取和跨页内容合并等功能。最后通过HTML知识库案例展示了完整RAG流程构建,

2025-12-02 21:20:13 93

原创 CUDA原子操作

原子操作通过硬件支持,保证 **“读 - 改 - 写” 操作不可分割 **(执行期间目标内存地址被锁定,其他线程无法访问),从而避免数据竞争。时,若 “读 - 改 - 写” 操作不具备原子性(即操作过程可被其他线程中断),会引发。),因 “读 - 改 - 写” 被线程切换中断,导致结果错误。直方图用于统计数据分布(8-bit 灰度图中,的出现次数),多线程统计需原子操作避免竞争。(初始值 0),多线程执行。当多个线程并发访问并修改。,导致结果不符合预期。

2025-12-01 21:38:28 34

原创 CodeTree: Agent-guided Tree Search for Code Generation with LargeLanguage Models

本文提出CodeTree,一种基于树搜索和多代理协作的代码生成框架。通过引入思考者、求解者和调试者三个专用代理,配合批评者代理指导的树扩展策略,CodeTree能高效探索代码空间并优化解决方案。实验表明,在HumanEval+、MBPP+等基准测试中,该方法显著优于现有基线,特别是在竞赛级任务上提升达22.4%。分析显示广度优先搜索策略更有效,且批评者代理的节点评估功能对性能提升至关重要。该方法在有限生成预算下展现出色效率,并能适应存储库级代码补丁生成等复杂任务。

2025-11-30 17:39:29 23

原创 Cuda 矩阵乘法逻辑

本文系统介绍了CUDA矩阵乘法优化方法,从基础实现到多级优化。首先分析cuBLAS库的矩阵乘法原理,指出行主序与列主序的转换技巧。随后详细阐述三种优化方案:1)原始并行实现,每个线程计算一个输出元素;2)共享内存优化,通过分块减少全局内存访问;3)ThreadTile技术,提升指令级并行性。重点讨论了向量化加载和双缓冲队列优化,通过寄存器级流水和乒乓缓冲机制实现计算与访存重叠。实验结果表明,优化后性能达到1683.8 GFLOPS,较基础实现提升显著。文章包含完整的数学推导、代码实现和性能分析,为GPU矩阵

2025-11-27 20:23:47 72

原创 SimpleDoc: Multi-Modal Document Understanding with Dual-Cue PageRetrieval and Iterative Refinement

文档视觉问答(DocVQA)是一项实用但充满挑战的任务,其目标是在文档中跨越多页、融合图像和表格等多种模态信息的基础上提出问题并作答。为处理多模态信息,近期方法多采用“检索增强生成”(RAG)流程,但使用基于视觉语言模型(VLM)的嵌入模型将页面作为图像进行嵌入与检索,并通过可接受图像输入的VLM生成答案。本文提出SimpleDoc,一个轻量但强大的检索增强框架,用于DocVQA。它通过以下方式提升证据页面的获取效率:首先通过嵌入相似度检索候选页面,然后基于页面摘要进行筛选与重排序。

2025-11-27 19:21:02 23

原创 Multi-Agent实现混合多知识库检索

graph_kg:基于 Neo4j 图数据库的知识图谱检索节点(前文定义,擅长复杂推理)。vec_kg:基于 Milvus 向量库的传统 RAG 检索节点(上文定义,擅长精准细节问答)。chat:直接调用大模型回答通用问题。coder:执行代码任务的代理节点(示例逻辑)。sqler:处理 SQL 数据库查询的代理节点(示例逻辑)。

2025-11-19 11:45:08 33

原创 LangGraph 构建 Multi-Agent Systems

多智能体系统架构研究综述 本文探讨了AI智能体的定义争议及发展路径,重点分析了多智能体系统(MAS)架构的优势与实现方法。研究内容涵盖: OpenAI提出的五阶段AI发展路线图 单智能体架构的局限性及转向多智能体系统的必要性 LangGraph中的多智能体通信架构(Network/Supervisor/Hierarchical) 子图(Subgraphs)技术实现跨代理状态共享 基于Network和Supervisor架构的具体实现方案 商业智能分析场景下的多代理协作实践 研究结果表明,多智能体系统通过专业

2025-11-18 16:50:44 30

原创 LangGraph 中 Human-in-the-loop

摘要:本文探讨了在自主AI Agent系统中实现"人工介入关键节点"(HIL)的技术方案,主要基于LangGraph框架构建。针对Agent可能执行高风险操作(如删除数据库)的问题,提出通过断点机制在关键节点暂停流程,实现人工审批后再继续执行。具体实现包括:(1)使用checkpointer组件持久化状态;(2)通过interrupt_before/after参数设置断点;(3)支持三种交互模式:批准、编辑和输入。文章还提供了代码示例,展示如何在不同场景(如工具调用)中动态触发人工审核机

2025-11-17 20:06:44 47

原创 LangGraph 实现长短期记忆管理

文章摘要: LangGraph框架为AIAgent设计了两种记忆机制:短期记忆存储单次对话的中间状态,通过Checkpointer(如MemorySaver、SqliteSaver)实现;长期记忆通过数据库实现跨对话知识共享。其中,SqliteSaver支持同步/异步模式,可将检查点持久化到SQLite数据库或内存,并通过thread_id区分不同对话流。文章详细介绍了如何通过SqliteSaver为ReactAgent添加记忆功能,包括工具定义、检查点集成和异步场景实现,展示了如何利用上下文管理和线程隔离

2025-11-17 11:11:31 134

原创 LangGraph 事件流的应用

本文介绍了基于LangGraph框架的流式输出实现方法,重点探讨了在复杂AI工作流中提升用户体验的技术方案。主要内容包括:1)通过token流式传输缓解大模型响应延迟问题,展示了LangChain中AIMessageChunk对象的处理方式;2)详细解析LangGraph的多种流式模式(values/updates/debug/messages),并通过天气查询案例演示数据库操作与API调用的集成;3)介绍astream_events方法实现细粒度事件监控,支持按需过滤模型调用、数据处理等关键节点。这些技术

2025-11-15 13:42:46 30

原创 ReAct 框架实现(基于langgraph)

摘要:本文介绍了ReAct自治循环代理的技术原理及LangGraph实现方案。该代理架构通过多步骤决策和多工具访问能力,解决了传统代理在复杂任务中的局限性。基于LangGraph框架,利用大模型在while循环中重复调用工具的核心机制,构建了包含Toolcalling、Memory和Planning三大能力的自治系统。文章详细阐述了天气查询案例的开发流程,包括四个工具的实现(实时天气API、MySQL存储、数据库查询、网络检索)以及LangGraph中构建状态图、路由函数、模型交互等关键步骤,最终形成可处理

2025-11-14 19:45:04 295

原创 LangGraph 工具调用代理(Tool Calling Agent)

摘要:ToolCallingAgent是基于RouterAgent扩展的AI代理架构,支持大模型自主调用工具完成分支任务。其核心组件ToolNode作为LangGraph预构建的工具执行节点,需满足三个条件:状态包含消息列表、最后一条为AIMessage且必须包含tool_calls字段。开发者需先定义工具函数(如网络检索、天气查询),通过@tool装饰器添加元数据,再将工具绑定到大模型(如GPT-4),使其能生成符合格式的tool_calls指令。该架构实现了自然语言与外部系统的标准化交互。

2025-11-14 17:51:54 42

原创 路由代理(Router Agent)的原理与实现

本文介绍了LangGraph中代理架构的高级开发方法,重点阐述了路由代理(RouterAgent)的核心原理及实现方式。通过条件边(conditional edges)机制,LangGraph支持根据状态(state)动态选择执行路径,并详细讲解了add_conditional_edges方法的使用。文章还深入分析了三种结构化输出方式:提示工程、提示工程+输出解析器以及内置工具方法with_structured_output(),其中特别介绍了使用Pydantic、TypedDict和JSONSchema实

2025-11-13 10:51:39 56

原创 LangGraph应用程序运维监控

LangSmith是大模型应用的监控调试平台,由LangChain团队开发,提供轨迹跟踪、日志记录和实时分析功能。其核心结构包含项目(Project)、轨迹(Traces)、运行(Runs)及辅助元数据。用户需注册账号并配置环境变量后即可使用,示例展示了如何通过LangGraph构建状态图实现聊天机器人功能,包括定义状态类、初始化大模型、添加节点边并实现流式交互。该工具有效解决了大模型应用开发中的调试和监控需求。

2025-11-13 10:00:26 26

原创 LangGraph 中 State 状态模式详解

LangGraph框架通过节点、边和状态的组合构建AI代理,其中状态(State)作为核心载体实现信息传递和功能支撑。状态采用共享字典数据结构,节点可读写状态并广播更新,确保数据流动。框架支持多种可视化方法(Mermaid/Graphviz/Pyppeteer)展现节点关系。Reducer函数机制允许为状态键定义独立更新逻辑(覆盖/累加等),结合TypedDict保障类型安全,适用于对话历史管理等场景。专用MessageGraph子类通过add_messages Reducer智能合并消息列表,优化对话应用

2025-11-12 21:45:16 185

原创 LangGraph 底层原理详细整理

LangGraph是一个基于LangChain表达式语言(LCEL)构建的AIAgent开发框架,支持多种主流大模型集成。其核心特性包括:1)采用循环图结构,通过节点(Nodes)和边(Edges)构建复杂工作流;2)引入共享状态管理机制(State),实现节点间的动态数据传递与更新;3)支持条件分支、循环等复杂逻辑控制;4)提供持久化和断点续传功能。框架包含Graph基类(管理基础图结构)和StateGraph(扩展状态管理)两个核心组件,开发者可通过简单的函数定义节点逻辑,并通过add_edge等方法构

2025-11-11 19:43:41 60

原创 基于 LangChain+RAG+MCP 的 Agent 核心原理与落地路径

本文介绍了使用LangChain构建本地知识库的系统流程,分为5个关键步骤:1)初始化核心组件,配置大模型、嵌入工具和向量数据库;2)加载本地文档并标准化处理;3)文档分块优化检索效率;4)构建向量知识库;5)通过RAG流程实现检索增强查询。系统将知识库封装为server端,提供rag_query接口,并通过client端实现工具调用和问答交互。整个方案采用模块化设计,支持多种文件类型和模型适配,具有扩展性强、答案可溯源等特点,可用于构建基于本地知识的智能问答系统。

2025-11-09 20:53:43 72

原创 GraphRag+MCP 技术栈实战:高性能 Agent 开发全解析

摘要:本文介绍了GraphRAG知识图谱的安装使用及服务端封装方法。首先说明GraphRAG的两种版本(微软官方版和国内大模型适配版)的安装方式,以及创建索引的基本命令。重点阐述如何将GraphRAG封装为API服务,包括三个关键步骤:1) 定义核心数据表常量并区分必选/可选文件;2) 实现数据加载逻辑,通过StorageFactory加载Parquet文件;3) 封装查询接口,调用local_search实现查询功能。最后提及初始化MCP服务框架,将GraphRAG集成到FastMCP服务中。

2025-11-08 14:57:46 44

原创 用 MCP 重构 RAG 智能体:3 步解决数据安全与多工具协同难题

MCP(ModelContextProtocol)是基于JSON-RPC2.0的开放标准协议,用于安全连接AI工具与数据源。其核心价值在于支持LLM智能体构建复杂工作流,提供预构建集成、跨厂商灵活性和数据安全保障。相比FunctionCall,MCP采用异步交互模式,具有标准化协议和多线程协作优势。 MCP+RAG+Agent架构将RAG服务工具化,通过MCP协议实现标准化对接。开发流程包括Server初始化、工具注册、业务逻辑实现和启动通信。客户端则负责连接服务端、协同大模型决策调用工具并整合结果。该架构

2025-11-07 16:36:12 140

原创 Adaptive Activation Steering: A Tuning-Free LLM TruthfulnessImprovement Method for Diverse Hallucin

大型语言模型(LLMs)在基于网络的应用中展示了显著的潜力[1, 34, 35, 48]。然而,尽管它们表现出流利性,却经常生成虚假陈述,或“幻觉”。这些幻觉对于构建负责任的网络构成了重大挑战,因为它们在医疗或法律咨询等应用中可能极其有害,在这些领域中高真实性是至关重要的[24, 31]。最近,一些研究人员指出,即使LLMs在训练答案中拥有正确的知识,它们也不总是提供真实的答案。例如,Wei等人[50]发现,ChatGPT可能在一个上下文中提供错误答案,而在另一个上下文中提供正确答案。

2025-11-03 09:59:29 28

原创 Steering Llama 2 via Contrastive Activation Addition

本文研究对比激活添加(CAA)技术对Llama2系列语言模型的行为调节效果。通过构建包含7种对齐相关行为的对比数据集,研究者在7B和13B参数的Llama2Chat模型上生成引导向量,发现CAA能有效调节多项选择和开放式生成任务中的目标行为。实验表明,CAA的效果优于系统提示,并能与监督微调互补,且对模型的一般能力(如MMLU基准测试)影响不显著。分析显示引导向量能捕捉语义相关标记的行为特征,且不同层的向量具有传递性。该技术为语言模型对齐提供了一种计算高效的新方法,但需注意保持生成文本质量与行为调节效果的平

2025-10-28 13:07:22 122

原创 Beyond Prompt Engineering: Robust Behavior Control in LLMs viaSteering Target Atoms

《引导目标原子(STA):大型语言模型精确行为控制新方法》 本文提出了一种基于稀疏自编码器(SAE)的引导目标原子(STA)方法,用于精确控制大型语言模型(LLMs)的行为。传统提示工程依赖专家设计且对微小变化敏感,而STA通过直接操作模型前向传播中的神经元激活实现更精细控制。实验表明,STA在安全控制任务中显著提升防御成功率(如Gemma-2-9B-it从83.89%提升至97.56%),且对模型通用能力影响较小。分析显示,中间层干预效果更优,且STA仅需少量样本即可生成有效引导向量。与提示工程相比,ST

2025-10-22 10:25:10 51

原创 Memory Decoder: A Pretrained, Plug-and-PlayMemory for Large Language Models

本文提出MemoryDecoder(MemDec),一种即插即用的预训练记忆模块,用于高效适配大型语言模型(LLMs)到特定领域。传统方法如领域适应预训练(DAPT)计算成本高且易导致灾难性遗忘,而检索增强生成(RAG)则带来显著推理开销。MemDec通过预训练小型Transformer解码器模仿非参数检索器的输出分布,实现即插即用适配,无需修改原始模型参数。实验表明,单个MemDec可适配多个模型架构,在生物医学、金融和法律领域均提升性能,同时保持推理效率(仅增加1.28倍延迟)。MemDec在知识密集型

2025-10-21 11:27:20 83

原创 Cuda reduce算子实现与优化

本文分析了CUDA并行归约计算的优化思路。原始归约方法存在线程闲置、线程束分歧和存储体冲突等问题,导致性能受限。优化方案通过warpReduce函数实现:1)采用无分支执行消除线程束分化;2)保持全线程参与避免闲置;3)利用寄存器级通信(__shfl_down_sync)替代共享内存访问,规避存储体冲突。这些改进使同一warp内的32个线程能同步执行相同操作,显著提升了并行计算效率。最终实现了更高效的GPU归约计算模式。

2025-10-20 21:11:08 96

原创 Softmax算子的实现与优化

本文介绍了Softmax函数及其优化实现,主要内容包括:1. Softmax核心作用是将实数向量转换为概率分布,广泛应用于多分类任务;2. 详细讲解了CPU和GPU实现方案,其中GPU版本通过样本级并行加速计算;3. 提出归约优化策略,利用多线程协作和共享内存提升行内维度计算效率;4. 引入洗牌指令优化Warp级归约,减少内存访问操作,性能提升20-30%;5. 提供完整代码实现和性能对比,展示不同优化策略的实际效果。文章系统性地阐述了Softmax的算法原理和工程优化方法,为深度学习框架中的Softmax

2025-10-20 20:08:18 97

原创 Training-Free Group Relative Policy Optimization

大型语言模型(LLMs)正逐渐成为能够与复杂现实世界环境互动的强大通用代理。它们在广泛的任务中表现出卓越的能力,包括复杂的问题解决[4,5,6]、高级网络研究[7,8,9,10]、代码生成和调试[11,12]以及熟练的计算机使用[13,14,15]。尽管它们的能力令人印象深刻,LLM代理在专业化的真实世界领域中往往表现不佳。这些场景通常需要集成外部工具(例如计算器、API、数据库),以及特定领域的任务定义和提示策略。

2025-10-17 10:18:28 97

原创 RLAD: Training LLMs to Discover Abstractionsfor Solving Reasoning Problems

[2510.02263] RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problemshttps://arxiv.org/abs/2510.02263 摘要:推理需要超越模式匹配或记忆解决方案,以识别和实施“算法程序”,这些程序可以用来推导出难题的答案。要做到这一点,需要识别最相关的原语、中间结果或共享程序,并在此基础上构建。虽然对长思维链进行强化学习(RL)后训练的目标是揭示这种算法行为,但大多数大型模

2025-10-16 10:33:42 33

原创 Machine Mental Imagery: Empower MultimodalReasoning with Latent Visual Tokens

视觉-语言模型(VLMs)联合编码图像和文本,并通过仅文本解码在视觉理解基准测试中取得了令人印象深刻的结果 [Wang et al., 2024]。诸如思维链提示和强化学习微调等技术可以延长这些文本推理轨迹并带来额外的收益。然而,VLMs在多模态推理任务(如空间推理)上仍然存在困难,这些任务需要的不仅仅是被动感知;它们需要对视觉元素的连贯理解和操作。考虑图1中的拼图谜题。人们不是对每个候选片段进行文本化,而是想象这两个片段如何对齐并决定正确的匹配。这种推理以一种自然的多模态方式展开,而不是仅通过语言。

2025-09-28 22:19:21 67

原创 Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

OpenAI的OI系列模型(Aach et al.,2024)和DeepSeek-R1(DeepSeek-AI et al.,2025)展示了大规模强化学习在复杂推理任务中的显著潜力。然而,由于训练细节的不完全披露,许多关于高性能推理模型再现的深层次问题仍然存在。

2025-09-28 11:07:34 47

原创 A Minimalist Approach to LLM Reasoning: from RejectionSampling to Reinforce

我们研究了在微调大型语言模型(LLMs)时使用可验证奖励的强化学习(RL)算法。我们的重点是数学推理任务,这些任务在OpenAI的O1模型和DeepSeek-R1发布后最近受到了显著关注。LLM后训练的主要方法一直是近端策略优化(PPO),然而,PPO需要一个额外的评论家网络,超出了基本的强化算法,引入了计算开销和算法复杂性。同时,LLM的确定性转换特性也简化了问题,PPO的许多复杂组件可能在此设置中不必要。这一观察激发了设计更简单但有效的RL算法用于后训练LLM的兴趣。

2025-09-07 10:46:55 93

原创 RLPR: EXTRAPOLATING RLVR TO GENERAL DOMAINS WITHOUT VERIFIERS

大规模的可验证奖励强化学习(RLVR)已成为提升大型语言模型(LLMs)推理能力的有前途的范式(Jaech et al., 2024;这种范式不仅展示了扩展测试时计算以解决复杂问题的能力,而且还为具有激励探索和进化的人工通用智能(AGI)提供了宝贵的见解。然而,与可以从一般领域数据中学习基础能力的LLMs预训练相比,大多数RLVR方法仅限于数学(Hu et al., 2025b;Yu et al., 2025)和代码生成(Luo et al., 2025a;

2025-09-06 11:55:38 62

原创 Beyond the Trade-off: Self-Supervised Reinforcement Learning forReasoning Models’ Instruction Follo

推理模型在各种推理领域表现出色(OpenAI, 2024;Guo 等人, 2025;Seed 等人, 2025)。它们的指令遵循能力(即同时遵循多个约束的能力)对于确保在实际应用中的实用性至关重要。一方面,与人类用户的现实对话通常包含多个约束(Deshpande 等人, 2025)。另一方面,可靠的指令遵循对于推理模型在复杂任务中表现出色是必不可少的(Qi 等人, 2025)。然而,推理模型在推理能力和指令遵循能力之间表现出令人担忧的权衡。图1展示了这一现象。

2025-08-28 10:12:18 55

原创 CUDA的编译与调试

是 NVIDIA 官方提供的专用工具。注意:若需切换到第 6 个线程(如用户示例),需在核函数启动时配置更多线程(如。通过该命令可确认:调试信息已正确关联源代码,行号匹配无误。为同时满足 “环境验证” 和 “后续调试” 需求,需用。会在指定行的开头设置断点,程序运行到此处会自动暂停。已成功切换到 GPU 核函数的线程上下文,当前暂停在。的焦点会转移到指定线程,后续调试操作仅针对该线程。当需要调试 GPU 核函数时,若核函数配置了多个线程,可通过。

2025-08-27 21:49:18 363

人工智能+Vectornet源码详解+博客资源

人工智能+Vectornet源码详解+博客资源,博客地址https://blog.csdn.net/qq_52053775/article/details/128510992

2023-01-01

博客资源:clip-demo测试效果展示

博客资源,博客地址:https://blog.csdn.net/qq_52053775/article/details/127461404.clip--demo测试效果展示

2022-10-22

博客资源+pandas相关代码

博客中pandas相关操作代码,博客地址:https://blog.csdn.net/qq_52053775/article/details/125626554, 给个好评吧!

2022-10-14

博客资源+seaborn相关操作

博客配套资源,博客地址:https://blog.csdn.net/qq_52053775/article/details/125905536 给个好评吧!

2022-10-14

博客资源+Matplotlib绘图的基本使用

Matplotlib绘图的基本使用。建议参考博客:https://blog.csdn.net/qq_52053775/article/details/125866631 给个好评吧!!

2022-10-14

自然语言处理+情感分析+主题分析+词云图

词云图 情感分析 LDA主题分析 机械压缩去词

2022-07-13

数学建模+时间序列预测+LSTM+股票数据分析

数据挖掘 LSTM 时间序列预测 随机森林 基于LSTM的股票数据分析 数学建模 探究股票各指标的相关性、建立模型 建立LSTM时间序列模型

2022-07-13

python+词云图+自然语言处理

机械压缩去词 文本预处理 词云图

2022-07-13

基于LeNet-5的手写体数字识别

基于LeNet-5的手写体数字识别

2022-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除