- 博客(112)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 解决推送github代码ssh不可用的问题,但是https可以用
摘要:本文总结了SSH连接GitHub失败的常见原因及解决方案,包括密钥过期或被移除、GitHub密钥配置错误、SSH代理问题、网络限制等。诊断步骤包括测试SSH连接、检查密钥指纹和查看详细日志。快速修复方案涉及重新添加密钥、更新known_hosts文件或临时改用HTTPS协议。最后建议使用SSH over HTTPS端口(443)作为稳定替代方案,并提供配置方法。
2026-01-05 00:50:58
451
原创 Ubuntu配置nginx
本文介绍了在Linux服务器上部署Nginx前端应用的完整流程:1)安装Nginx并设置开机自启;2)配置防火墙放通端口;3)上传本地打包的前端文件到服务器并设置权限;4)创建虚拟主机配置文件,包含单页应用路由回退等关键配置;5)启用新配置并禁用默认配置;6)提供本地测试方法和常见问题排查指南;7)建议后续可选的HTTPS配置方案。文中包含详细命令和配置示例,覆盖了从安装到部署再到排错的完整过程。
2026-01-04 20:02:05
230
原创 AgentLightning训练需要知道的参数
本文介绍了强化学习训练中的关键配置参数,主要包括环境变量和训练参数两大部分。环境变量部分涉及GPU数量、基础模型路径、数据目录等基础配置;训练参数部分详细说明了算法、数据、模型、优化等方面的参数设置,包括优势估计器类型、训练/验证数据路径、批次大小、学习率、并行配置等。这些参数共同构成了一个完整的强化学习训练框架,为模型训练提供了全面的配置选项和优化策略。
2025-10-16 10:10:37
709
原创 Agentlightning环境准备
Agent Lightning的基础设施由GPU计算环境、Ray分布式集群和自动化脚本构成,支持稳定部署(固定版本)和最新部署(前沿开发)两种模式。环境设置需按严格顺序安装系统工具、PyTorch生态、Flash Attention等核心组件。Ray集群作为分布式核心,需配置特定环境变量和启动命令。整个系统依赖层级分明,从基础层到RL框架逐层构建,确保CUDA 12.8兼容性和高性能计算能力。
2025-10-15 23:53:50
449
原创 AgentLightning框架(1)
本文介绍了AgentLightning强化学习框架及其训练智能体的核心机制。框架采用Agent-Server分离架构,支持分布式训练。训练过程通过任务分配、策略执行、轨迹收集和奖励计算等步骤,使用GRPO/PPO算法优化策略网络。智能体通过策略优化、经验积累和自我改进循环增强能力。文章详细说明了训练流程、代码执行路径、策略网络结构,以及如何优化外部API使用策略。训练后的策略网络包含基础模型和特定任务适配器,可保存在检查点中供后续使用。
2025-10-13 22:35:30
884
原创 强化学习(5)多智能体强化学习
多智能体强化学习(MARL)与单智能体强化学习(SARL)在环境动态性、智能体目标、学习复杂性等方面存在显著差异。MARL中,环境的非静态性和智能体间的相互影响导致学习难度增加,涉及合作、竞争或混合关系。MARL架构可分为完全集中式(CTE)、完全分散式(DTE)和集中训练/分散执行(CTDE)三类。CTE利用全局信息但易受维度灾难影响;DTE独立学习但收敛性差;CTDE结合两者优势,训练时使用全局信息优化策略,执行时依赖局部观测,是当前主流方法。这些差异使得MARL在信度分配、收敛性和可观测性等方面面临更
2025-10-10 22:31:16
1296
原创 AgentLightning浅读
Agent Lightning 是微软推出的一个强大的 AI 智能体训练框架,其核心理念是:以极低的成本,通过强化学习 (RL) 或自动提示词优化 (APO) 来提升现有智能体的性能。Agent Lightning 的训练流程必须在两个独立的进程中运行:它本质上是修改模型参数。在 Agent Lightning 中,“训练”体现为两种对策略的优化方式:拿电力场景(根据线路信息、规则和过载情况生成转供方案)做例子这是将领域知识转化为机器可学习信号的关键。奖励函数将评估智能体生成的转供方案的质量,并返回一个标量
2025-10-04 15:37:26
907
原创 强化学习(3)策略梯度
特性策略梯度方法(如 REINFORCE, A2C, PPO)价值函数方法(如 Q-Learning, DQN)学习目标直接学习策略πa∣s\pi(a|s)πa∣s,最大化预期回报间接学习价值函数QsaQ(s, a)Qsa,最优策略从 Q 值中导出。动作空间适用于连续和离散动作空间。主要适用于离散动作空间。策略类型天然支持随机策略。通常支持确定性策略,通过ϵ\epsilonϵ-greedy 引入随机性。核心挑战梯度估计的方差(Variance)较大,训练需要更多样本。
2025-09-27 18:14:11
1017
原创 强化学习(2)TD Learning
摘要: 时序差分学习(TD Learning)是深度Q网络(DQN)的核心优化算法,通过最小化TD误差(预测Q值与TD目标的差距)训练神经网络逼近最优动作价值函数。DQN用神经网络替代Q表,输出各动作概率(如超级玛丽中的上、左、右)。关键创新包括:1)TD目标(即时奖励+折后最大未来Q值)提供稳定训练信号;2)固定Q目标技术(目标网络定期同步在线网络参数)避免训练震荡。TD Learning使DQN能通过自身经验生成虚拟标签,实现无监督强化学习。
2025-09-27 17:09:46
1013
原创 强化学习(1)基础理论
强化学习(Reinforcement Learning, RL)是一种独特的机器学习范式,它让智能体(Agent)通过与环境(Environment)的不断交互来学习最优行为,以最大化其获得的累积奖励(Return)
2025-09-27 11:43:37
948
原创 上下文块嵌入(contextualized-chunk-embeddings)
上下文感知:每个块的嵌入不仅包含其自身内容的信息,还包含文档级别的上下文信息更好的检索质量:通过捕获全局上下文,能够实现更准确的检索结果处理长文档:支持长达32,000个token的上下文长度。
2025-08-15 18:43:54
715
原创 记录一次微调重排序模型
文章摘要 当通用重排序模型在特定领域数据上效果不佳时,需进行微调。微调适用于以下场景:领域专业性强(如法律、医疗)、中文混合表达复杂、语义匹配特殊、文档结构特殊、高精度要求(如医疗问答)或模型持续排序错误。数据集生成可通过用户日志挖掘或LLM合成(如使用Gemini生成问答对),格式需为句子对加相关性分数(0-1)。微调采用MSE评估器监控模型性能,通过交叉编码器计算损失,选择最佳模型保存。最终目标是提升模型在特定场景下的语义区分能力。
2025-08-15 11:56:43
1059
原创 从依赖外部提示的显式思维链(CoT),到内部自洽的内化推理(Internalized Reasoning)
这种演进标志着LLM从“鹦鹉学舌”迈向真正的。,但完全内化复杂推理(如数学证明)仍需突破。
2025-08-09 17:09:40
589
原创 计算机系统设计中都有什么任务~计算密集~IO密集~逻辑密集等
摘要:任务按资源需求可分为逻辑密集(如编译器分析)、计算密集(如AI训练)、I/O密集(如高并发Web)、内存密集(如实时数据库)、通信密集(如分布式系统)和存储密集(如视频存储)。各类任务优化方向不同,如逻辑任务减少分支、计算任务并行化、I/O任务异步处理等。实际场景多为混合型(如AI推理=计算+内存密集),需通过性能剖析和资源隔离针对性优化。
2025-08-09 16:49:32
769
原创 在CoT中为什么仅用方程式提示不够
摘要: 研究表明,仅用方程式提示在简单数学问题(如单步计算)中有效,但在复杂问题(如多步推理)中易导致语义丢失和符号歧义。思维链(CoT)通过分步解析和自然语言描述,能更好地保持语义关联,隔离错误,更贴近人类推理过程。工程上需根据问题复杂度选择方法:单步用方程式,多步用CoT,混合型可结合两者优势。未来可优化混合提示策略和错误分析工具,以提升模型在复杂语义任务中的表现。
2025-08-09 11:46:42
465
原创 关于CoT中的模型缩放曲线对性能影响的理解
摘要: "缩放曲线平坦"指语言模型性能随规模扩大而提升缓慢的现象。研究表明,当模型进入性能饱和区(如>100B参数),普通提示效果改善有限,而思维链(CoT)提示仍能显著提升表现。例如,540B参数的PaLM模型在数学题测试中,普通提示仅提升3%,而CoT提示提升39%。根本原因是CoT能突破对数增长限制,实现幂律增长。工程应用中,小模型应优化普通提示,大模型则需采用CoT以最大化性能收益。
2025-08-09 11:40:34
848
原创 提示工程的核心作用
将人类意图“翻译”为模型可高效执行的指令。:无需训练即可激发模型能力。:效果受众多因素非线性影响。(如因果推理链设计)与。(如语言风格适配)。
2025-08-09 11:32:37
802
原创 浅试A2A
文章摘要 Agent2Agent (A2A) 协议是由谷歌提出的开放标准,旨在实现不同AI Agent系统之间的互操作性。该协议通过统一的通信方式,使不同框架或供应商构建的Agent能够相互发现、协作完成任务。文档通过三个数学计算Agent(正弦、余弦、正切)的示例展示A2A协议实现:每个Agent都注册特定数学函数作为技能,并通过HTTP端口提供服务;客户端通过AgentNetwork管理多个Agent,实现任务分发。A2A与MCP协议互补,前者关注Agent间协作,后者增强单个Agent能力。
2025-08-08 23:52:29
873
原创 为什么提升模型尺度可以提升模型的CoT能力
摘要:研究发现,大语言模型的思维链(CoT)推理能力具有显著的涌现特性,当参数规模超过约100亿时才会显现。小模型使用CoT反而会降低性能,而百亿级以上的模型在多步推理、语义消歧和错误抑制方面表现更优。分析显示,模型规模提升能显著减少语义理解错误(下降62%)和步骤缺失(减少58%)。尽管规模是关键因素,但需配合适当的提示工程(如Few-shot示例)才能有效激活CoT能力。该研究揭示了LLM能力增长的非线性规律,为模型开发提供了重要方向。
2025-08-08 23:32:12
826
原创 《论文阅读》传统CoT方法和提出的CoT Prompting的区分
摘要:本文提出Chain-of-Thought(CoT)Prompting方法,通过设计包含推理步骤的提示模板,无需微调即可激发大语言模型的推理能力。相比传统方法(需标注大量训练数据或仅展示输入-输出对),CoT Prompting仅需3-5个示范样例,在100B+参数模型上展现出显著效果(如GSM8K数学题准确率从17%提升至56%)。其创新性在于将推理能力转化为提示工程问题,实现跨任务的零样本推理,大幅降低计算成本和数据需求。该方法揭示了模型规模与涌现能力的关系,为复杂推理任务提供了通用解决方案。
2025-08-08 15:37:00
961
原创 使用LLM进行评分时的关键局限性
摘要:LLM自动评分存在两大问题:1)评分集中在中间值(如3分),导致低方差和与人类评判低相关;2)仅输出整数评分,无法区分文本细微差异。解决方案包括细化评分标准、概率加权法和两阶段评估等。实验表明,优化方法可显著提升评分方差(0.51→1.27)和相关性(0.62→0.79)。最佳实践需结合算法改进与评估流程优化,以逼近人类评判的灵敏度。 (字数:149)
2025-08-08 10:25:25
1063
原创 关于G-Eval的form-filling paradigm理解
摘要:G-EVAL框架采用表单填写范式,通过结构化评估输出(如JSON格式)替代传统概率或自由文本方法。该范式强制模型按预定标准输出评分和注释,提升评估一致性和可解释性。其核心优势包括规避概率偏差、支持多维度独立评分,并通过CoT推理增强评估逻辑。技术实现需设计特定提示词,控制输出格式与离散评分。相比GPTScore类方法,表单范式更适用于标准化评估场景,但对评估标准设计质量敏感。(150字)
2025-08-08 00:35:54
510
1
原创 关于基于大模型评估方法的自增强循环(Self-reinforcing Loop)风险
**摘要:**研究发现,使用大语言模型(LLM)作为评估指标时,可能产生自增强循环风险——LLM更倾向给自身生成文本打高分,导致优化过程中不断强化自身偏好,丧失人类文本的多样性。根源在于训练数据偏差、封闭评估系统和概率建模缺陷。解决方案包括混合人类评估信号、对抗训练和基于人类偏好的校准。最佳实践建议采用多样化指标、动态权重调整和隔离测试集。关键是要打破封闭循环,结合人类评估信号,发展真正理解能力的评估模型。
2025-08-08 00:24:54
768
原创 MCP (Model Context Protocol) 与 HTTP API:大模型时代的通信新范式
MCP(Model Context Protocol)是一种针对大模型交互优化的新型通信范式,与HTTP API形成对比。HTTP API作为无状态请求-响应协议,每次交互都需要完整传输上下文,在大模型长对话场景中效率较低。而MCP采用会话导向设计,通过上下文ID和增量更新机制,允许模型在多轮对话中维护状态,仅传输变化的上下文片段。这种设计显著减少了冗余Token传输,提升了交互效率,特别适合需要持续上下文管理的LLM应用场景。虽然MCP增加了实现复杂度,但为长上下文对话、持续学习等场景提供了更优的解决方案
2025-07-25 18:57:45
1226
原创 RAG的5种分块策略
摘要: 文本分块(Chunking)是大模型处理长文本的关键步骤,需根据需求选择合适策略。固定大小分块简单高效但可能破坏语义;语义分块基于标点或嵌入相似度保持语义连贯;递归分块分层切分,兼顾结构与大小;基于文档结构的分块利用标题、段落等逻辑单元,最大化保留原义。无通用最优策略,需结合文本类型(松散/结构化)、任务需求(检索/生成)及计算资源综合选择。例如,RAG系统优先语义分块,而快速原型可采用固定分块。
2025-07-23 15:18:29
970
原创 python-pptx 的layout 布局
在 PowerPoint 中,决定了幻灯片的占位符(如标题、内容、图片等)的排列方式。提供了对布局的编程控制。通过。
2025-07-18 21:06:57
1307
原创 LangChain 学习项目代码
"LangChain学习项目提供了一系列示例代码,帮助开发者掌握LangChain框架。项目包含从LLM基础、提示词模板到智能体、文档检索等10个模块的渐进式学习内容。每个示例都有详细注释,建议按编号顺序学习。核心功能包括LLM接口、提示词管理、链式组件、记忆状态等。使用前需安装依赖并配置API密钥。该项目适合希望系统学习LangChain的开发者。"
2025-07-16 15:42:22
245
原创 LangChain中提供的检索方法
LangChain提供了多种检索方法以适应不同场景需求。基于相似度的检索(如余弦相似度)是基础方法,可返回相关文档及相似度分数。为平衡相关性与多样性,最大边际相关性(MMR)算法确保结果覆盖面更广。增强检索策略包括多查询检索(提高召回率)、上下文压缩检索(减少令牌数量)、父文档检索(分层检索)和时间加权检索(优先最新结果)。基于代理的检索(如SelfQueryRetriever)支持复杂查询转换。此外,语义路由器可动态选择最适合的检索器,实现智能知识库管理。这些方法共同优化了检索效果与效率。
2025-07-16 15:32:25
961
原创 LangChain 数据检索(Retrieval)
摘要:大型语言模型(LLM)的知识受限于训练数据,无法获取实时或特定领域信息。数据检索(Retrieval)技术通过关键组件解决这一问题:文档加载器从多种数据源提取内容,文本分割器将长文档切分为语义完整的片段,嵌入模型将文本转换为向量表示以支持相似度搜索。典型流程包括数据加载、分割、向量化存储和检索,最终增强LLM生成能力。该技术拓展了LLM的应用边界,使其能结合外部知识库提供更精准的响应。
2025-07-16 10:16:54
1156
原创 LangChain 内存(Memory)
摘要: 大型语言模型(LLM)本身无状态,无法记忆历史对话。LangChain通过内存机制(如ConversationBufferMemory)存储对话历史,使LLM能理解上下文。其核心流程包括保存、加载历史并注入到Prompt中。基础内存类型ConversationBufferMemory会存储全部历史,但可能导致提示过长;改进方案ConversationBufferWindowMemory仅保留最近N轮对话,优化上下文长度与成本。代码示例展示了如何利用这两种内存实现多轮对话,通过MessagesPlac
2025-07-12 23:36:41
689
原创 Agent 设计模式
大型语言模型(LLM)的Agent设计模式包括四种核心模式:工具使用模式(调用外部工具扩展能力)、思考-行动模式(结合推理与工具使用的循环)、反思模式(评估任务结果并自我改进)以及规划模式(分解复杂任务为子任务)。这些模式通过赋予LLM规划、反思、工具调用和协作能力,使其能够处理更复杂的智能任务。文中提供了每种模式的流程图和代码示例,展示了从基础工具调用到多轮反思优化的完整Agent设计思路。这些模式可单独使用或组合应用,为构建高效AI系统提供方法论支持。
2025-07-12 22:59:24
573
原创 LangChain 代理(Agents)学习
LangChain代理核心机制解析 LangChain中的代理(Agents)赋予语言模型自主决策能力,通过"思考-行动-观察"循环(TAB)完成复杂任务。其核心组件包括: TAB循环机制:模型持续执行思考决策、调用工具、观察结果的迭代过程 工具系统:通过@tool装饰器将函数转化为代理可调用的工具,包含名称、描述和执行逻辑 ReAct代理模式:结合推理(Reasoning)和行动(Acting),模型生成包含思考过程的结构化输出 记忆功能:通过内存模块保存对话历史,实现上下文感知的持续
2025-07-12 21:23:43
533
原创 LLM 不知道答案,但是知道去调用工具获取答案?
摘要: 大型语言模型(LLM)调用工具并非因其“知道”正确答案,而是通过模式识别与指令遵循实现。当面对超出其知识边界或低置信度的问题(如时效性事实),LLM会匹配工具描述(如搜索工具的功能说明),并遵循结构化提示(如ReAct框架)调用工具。这种机制使其避免随意生成错误答案,转而依赖外部工具获取可靠信息。代理框架的核心是为LLM提供决策逻辑和执行能力,使其像遵循指令的“学生”优先选择工具而非猜测。关键在于: 识别问题类型 评估自身知识局限性 匹配工具用途 严格遵循提示指令。
2025-07-12 21:21:29
435
原创 LangChain 与 LlamaIndex:RAG 项目中的双雄对比
RAG(检索增强生成)是提升大语言模型应用的关键技术,LangChain和LlamaIndex是两大主流框架。LangChain强调模块化编排,通过LCEL将RAG流程组件化连接,适用于复杂应用开发;而LlamaIndex采用"数据优先"理念,专注于构建高效知识索引和智能查询引擎,优化数据检索。两者在RAG实现上各具特色:LangChain灵活通用,支持多种LLM应用场景;LlamaIndex则在数据处理和检索环节更高效。开发者可根据项目需求选择框架——LangChain适合需要高度定制
2025-07-12 20:46:12
753
1
原创 LangChain 的链(Chain)
链(Chains)是LangChain的基石,它允许开发者将多个独立的组件连接在一起,形成一个有向无环图(DAG),从而构建出功能更强大、更复杂的LLM驱动型应用。一个链可以是一个简单的顺序执行流程,也可以是包含条件逻辑、并行执行的复杂工作流。
2025-07-12 17:13:28
729
原创 一种新的参数高效微调方法-LoRI
这篇论文提出了一种新的参数高效微调(PEFT)方法,名为 LoRA with Reduced Interference (LoRI)。LoRI 旨在解决传统 LoRA 的局限性
2025-06-21 16:24:08
588
原创 DeepSpeed 深度学习学习笔记:高效训练大型模型
DeepSpeed是一个针对大型深度学习模型训练优化的开源库,由微软开发。它通过核心技术ZeRO(零冗余优化器)系列解决了训练千亿参数模型时的显存瓶颈问题。ZeRO分为三个阶段:Stage 1(优化器状态分片)可节省约4倍显存,Stage 2(梯度分片)共节省7倍显存,Stage 3(参数分片)实现最大显存优化。此外,ZeRO-Offload技术可将部分计算卸载到CPU/硬盘。DeepSpeed还提供高效的混合精度训练、通信优化和易用API,支持从单GPU到数千GPU的弹性扩展,使大规模模型训练更加高效和可
2025-06-20 15:02:54
2725
原创 QLoRA (Quantized Low-Rank Adaptation)浅析
QLoRA:高效大模型微调方法 QLoRA(Quantized Low-Rank Adaptation)是一种创新的模型微调技术,在保持LoRA参数效率的基础上,通过三项关键技术显著降低显存需求:1)采用4-bit NormalFloat量化预训练模型权重;2)对量化参数进行二次量化(Double Quantization)进一步节省内存;3)引入分页优化器管理优化器状态。这种方法能在单张消费级GPU(如24GB显存的RTX 3090)上微调650亿参数的大模型,同时保持接近全参数微调的性能。QLoRA通过
2025-06-19 21:28:38
1393
原创 LoRA 浅析
LoRA是一种参数高效的微调方法,通过冻结预训练语言模型的权重,仅训练新增的低秩矩阵来减少计算资源。其原理是将线性层分解为Wx+BAx,其中BA是远小于原始矩阵的低秩矩阵。LoRA在微调时只训练A和B矩阵,推理时可合并或单独计算。实现中包含缩放系数调节影响力,经验表明设为秩的2倍效果最佳。相比全参数微调,LoRA资源消耗更少,但在需要大改的任务上性能可能略降。
2025-06-19 16:55:02
505
java多线程拥有同一把锁就代表拥有同一种资源吗
2019-05-16
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅