成都犀牛-CSDN博客

原创解决推送github代码ssh不可用的问题，但是https可以用

摘要：本文总结了SSH连接GitHub失败的常见原因及解决方案，包括密钥过期或被移除、GitHub密钥配置错误、SSH代理问题、网络限制等。诊断步骤包括测试SSH连接、检查密钥指纹和查看详细日志。快速修复方案涉及重新添加密钥、更新known_hosts文件或临时改用HTTPS协议。最后建议使用SSH over HTTPS端口（443）作为稳定替代方案，并提供配置方法。

2026-01-05 00:50:58 451

原创 Ubuntu配置nginx

本文介绍了在Linux服务器上部署Nginx前端应用的完整流程：1)安装Nginx并设置开机自启；2)配置防火墙放通端口；3)上传本地打包的前端文件到服务器并设置权限；4)创建虚拟主机配置文件，包含单页应用路由回退等关键配置；5)启用新配置并禁用默认配置；6)提供本地测试方法和常见问题排查指南；7)建议后续可选的HTTPS配置方案。文中包含详细命令和配置示例，覆盖了从安装到部署再到排错的完整过程。

2026-01-04 20:02:05 230

原创 AgentLightning训练需要知道的参数

本文介绍了强化学习训练中的关键配置参数，主要包括环境变量和训练参数两大部分。环境变量部分涉及GPU数量、基础模型路径、数据目录等基础配置；训练参数部分详细说明了算法、数据、模型、优化等方面的参数设置，包括优势估计器类型、训练/验证数据路径、批次大小、学习率、并行配置等。这些参数共同构成了一个完整的强化学习训练框架，为模型训练提供了全面的配置选项和优化策略。

2025-10-16 10:10:37 709

原创 Agentlightning环境准备

Agent Lightning的基础设施由GPU计算环境、Ray分布式集群和自动化脚本构成，支持稳定部署（固定版本）和最新部署（前沿开发）两种模式。环境设置需按严格顺序安装系统工具、PyTorch生态、Flash Attention等核心组件。Ray集群作为分布式核心，需配置特定环境变量和启动命令。整个系统依赖层级分明，从基础层到RL框架逐层构建，确保CUDA 12.8兼容性和高性能计算能力。

2025-10-15 23:53:50 449

原创 AgentLightning框架（1）

本文介绍了AgentLightning强化学习框架及其训练智能体的核心机制。框架采用Agent-Server分离架构，支持分布式训练。训练过程通过任务分配、策略执行、轨迹收集和奖励计算等步骤，使用GRPO/PPO算法优化策略网络。智能体通过策略优化、经验积累和自我改进循环增强能力。文章详细说明了训练流程、代码执行路径、策略网络结构，以及如何优化外部API使用策略。训练后的策略网络包含基础模型和特定任务适配器，可保存在检查点中供后续使用。

2025-10-13 22:35:30 884

原创强化学习（5）多智能体强化学习

多智能体强化学习（MARL）与单智能体强化学习（SARL）在环境动态性、智能体目标、学习复杂性等方面存在显著差异。MARL中，环境的非静态性和智能体间的相互影响导致学习难度增加，涉及合作、竞争或混合关系。MARL架构可分为完全集中式（CTE）、完全分散式（DTE）和集中训练/分散执行（CTDE）三类。CTE利用全局信息但易受维度灾难影响；DTE独立学习但收敛性差；CTDE结合两者优势，训练时使用全局信息优化策略，执行时依赖局部观测，是当前主流方法。这些差异使得MARL在信度分配、收敛性和可观测性等方面面临更

2025-10-10 22:31:16 1296

原创 AgentLightning浅读

Agent Lightning 是微软推出的一个强大的 AI 智能体训练框架，其核心理念是：以极低的成本，通过强化学习 (RL) 或自动提示词优化 (APO) 来提升现有智能体的性能。Agent Lightning 的训练流程必须在两个独立的进程中运行：它本质上是修改模型参数。在 Agent Lightning 中，“训练”体现为两种对策略的优化方式：拿电力场景（根据线路信息、规则和过载情况生成转供方案）做例子这是将领域知识转化为机器可学习信号的关键。奖励函数将评估智能体生成的转供方案的质量，并返回一个标量

2025-10-04 15:37:26 907

原创强化学习（4）策略梯度与TD Learning

这里我们会聊一下策略梯度与TD Learning的关系。

2025-09-27 20:56:25 847

原创强化学习（3）策略梯度

特性策略梯度方法（如 REINFORCE, A2C, PPO）价值函数方法（如 Q-Learning, DQN）学习目标直接学习策略πa∣s\pi(a|s)πa∣s，最大化预期回报间接学习价值函数QsaQ(s, a)Qsa，最优策略从 Q 值中导出。动作空间适用于连续和离散动作空间。主要适用于离散动作空间。策略类型天然支持随机策略。通常支持确定性策略，通过ϵ\epsilonϵ-greedy 引入随机性。核心挑战梯度估计的方差（Variance）较大，训练需要更多样本。

2025-09-27 18:14:11 1017

原创强化学习（2）TD Learning

摘要：时序差分学习（TD Learning）是深度Q网络（DQN）的核心优化算法，通过最小化TD误差（预测Q值与TD目标的差距）训练神经网络逼近最优动作价值函数。DQN用神经网络替代Q表，输出各动作概率（如超级玛丽中的上、左、右）。关键创新包括：1）TD目标（即时奖励+折后最大未来Q值）提供稳定训练信号；2）固定Q目标技术（目标网络定期同步在线网络参数）避免训练震荡。TD Learning使DQN能通过自身经验生成虚拟标签，实现无监督强化学习。

2025-09-27 17:09:46 1013

原创强化学习（1）基础理论

强化学习（Reinforcement Learning, RL）是一种独特的机器学习范式，它让智能体（Agent）通过与环境（Environment）的不断交互来学习最优行为，以最大化其获得的累积奖励（Return）

2025-09-27 11:43:37 948

原创上下文块嵌入(contextualized-chunk-embeddings)

上下文感知：每个块的嵌入不仅包含其自身内容的信息，还包含文档级别的上下文信息更好的检索质量：通过捕获全局上下文，能够实现更准确的检索结果处理长文档：支持长达32,000个token的上下文长度。

2025-08-15 18:43:54 715

原创记录一次微调重排序模型

文章摘要当通用重排序模型在特定领域数据上效果不佳时，需进行微调。微调适用于以下场景：领域专业性强（如法律、医疗）、中文混合表达复杂、语义匹配特殊、文档结构特殊、高精度要求（如医疗问答）或模型持续排序错误。数据集生成可通过用户日志挖掘或LLM合成（如使用Gemini生成问答对），格式需为句子对加相关性分数（0-1）。微调采用MSE评估器监控模型性能，通过交叉编码器计算损失，选择最佳模型保存。最终目标是提升模型在特定场景下的语义区分能力。

2025-08-15 11:56:43 1059

原创从依赖外部提示的显式思维链（CoT），到内部自洽的内化推理（Internalized Reasoning）

这种演进标志着LLM从“鹦鹉学舌”迈向真正的。，但完全内化复杂推理（如数学证明）仍需突破。

2025-08-09 17:09:40 589

原创计算机系统设计中都有什么任务～计算密集～IO密集～逻辑密集等

摘要：任务按资源需求可分为逻辑密集（如编译器分析）、计算密集（如AI训练）、I/O密集（如高并发Web）、内存密集（如实时数据库）、通信密集（如分布式系统）和存储密集（如视频存储）。各类任务优化方向不同，如逻辑任务减少分支、计算任务并行化、I/O任务异步处理等。实际场景多为混合型（如AI推理=计算+内存密集），需通过性能剖析和资源隔离针对性优化。

2025-08-09 16:49:32 769

原创在CoT中为什么仅用方程式提示不够

摘要：研究表明，仅用方程式提示在简单数学问题（如单步计算）中有效，但在复杂问题（如多步推理）中易导致语义丢失和符号歧义。思维链（CoT）通过分步解析和自然语言描述，能更好地保持语义关联，隔离错误，更贴近人类推理过程。工程上需根据问题复杂度选择方法：单步用方程式，多步用CoT，混合型可结合两者优势。未来可优化混合提示策略和错误分析工具，以提升模型在复杂语义任务中的表现。

2025-08-09 11:46:42 465

原创关于CoT中的模型缩放曲线对性能影响的理解

摘要： "缩放曲线平坦"指语言模型性能随规模扩大而提升缓慢的现象。研究表明，当模型进入性能饱和区（如>100B参数），普通提示效果改善有限，而思维链（CoT）提示仍能显著提升表现。例如，540B参数的PaLM模型在数学题测试中，普通提示仅提升3%，而CoT提示提升39%。根本原因是CoT能突破对数增长限制，实现幂律增长。工程应用中，小模型应优化普通提示，大模型则需采用CoT以最大化性能收益。

2025-08-09 11:40:34 848

原创提示工程的核心作用

将人类意图“翻译”为模型可高效执行的指令。：无需训练即可激发模型能力。：效果受众多因素非线性影响。（如因果推理链设计）与。（如语言风格适配）。

2025-08-09 11:32:37 802

原创浅试A2A

文章摘要 Agent2Agent (A2A) 协议是由谷歌提出的开放标准，旨在实现不同AI Agent系统之间的互操作性。该协议通过统一的通信方式，使不同框架或供应商构建的Agent能够相互发现、协作完成任务。文档通过三个数学计算Agent（正弦、余弦、正切）的示例展示A2A协议实现：每个Agent都注册特定数学函数作为技能，并通过HTTP端口提供服务；客户端通过AgentNetwork管理多个Agent，实现任务分发。A2A与MCP协议互补，前者关注Agent间协作，后者增强单个Agent能力。

2025-08-08 23:52:29 873

原创为什么提升模型尺度可以提升模型的CoT能力

摘要：研究发现，大语言模型的思维链（CoT）推理能力具有显著的涌现特性，当参数规模超过约100亿时才会显现。小模型使用CoT反而会降低性能，而百亿级以上的模型在多步推理、语义消歧和错误抑制方面表现更优。分析显示，模型规模提升能显著减少语义理解错误（下降62%）和步骤缺失（减少58%）。尽管规模是关键因素，但需配合适当的提示工程（如Few-shot示例）才能有效激活CoT能力。该研究揭示了LLM能力增长的非线性规律，为模型开发提供了重要方向。

2025-08-08 23:32:12 826

原创《论文阅读》传统CoT方法和提出的CoT Prompting的区分

摘要：本文提出Chain-of-Thought（CoT）Prompting方法，通过设计包含推理步骤的提示模板，无需微调即可激发大语言模型的推理能力。相比传统方法（需标注大量训练数据或仅展示输入-输出对），CoT Prompting仅需3-5个示范样例，在100B+参数模型上展现出显著效果（如GSM8K数学题准确率从17%提升至56%）。其创新性在于将推理能力转化为提示工程问题，实现跨任务的零样本推理，大幅降低计算成本和数据需求。该方法揭示了模型规模与涌现能力的关系，为复杂推理任务提供了通用解决方案。

2025-08-08 15:37:00 961

原创使用LLM进行评分时的关键局限性

摘要：LLM自动评分存在两大问题：1)评分集中在中间值（如3分），导致低方差和与人类评判低相关；2)仅输出整数评分，无法区分文本细微差异。解决方案包括细化评分标准、概率加权法和两阶段评估等。实验表明，优化方法可显著提升评分方差（0.51→1.27）和相关性（0.62→0.79）。最佳实践需结合算法改进与评估流程优化，以逼近人类评判的灵敏度。（字数：149）

2025-08-08 10:25:25 1063

原创关于G-Eval的form-filling paradigm理解

摘要：G-EVAL框架采用表单填写范式，通过结构化评估输出（如JSON格式）替代传统概率或自由文本方法。该范式强制模型按预定标准输出评分和注释，提升评估一致性和可解释性。其核心优势包括规避概率偏差、支持多维度独立评分，并通过CoT推理增强评估逻辑。技术实现需设计特定提示词，控制输出格式与离散评分。相比GPTScore类方法，表单范式更适用于标准化评估场景，但对评估标准设计质量敏感。（150字）

2025-08-08 00:35:54 510 1

原创关于基于大模型评估方法的自增强循环（Self-reinforcing Loop）风险

**摘要：**研究发现，使用大语言模型（LLM）作为评估指标时，可能产生自增强循环风险——LLM更倾向给自身生成文本打高分，导致优化过程中不断强化自身偏好，丧失人类文本的多样性。根源在于训练数据偏差、封闭评估系统和概率建模缺陷。解决方案包括混合人类评估信号、对抗训练和基于人类偏好的校准。最佳实践建议采用多样化指标、动态权重调整和隔离测试集。关键是要打破封闭循环，结合人类评估信号，发展真正理解能力的评估模型。

2025-08-08 00:24:54 768

原创 MCP (Model Context Protocol) 与 HTTP API：大模型时代的通信新范式

MCP（Model Context Protocol）是一种针对大模型交互优化的新型通信范式，与HTTP API形成对比。HTTP API作为无状态请求-响应协议，每次交互都需要完整传输上下文，在大模型长对话场景中效率较低。而MCP采用会话导向设计，通过上下文ID和增量更新机制，允许模型在多轮对话中维护状态，仅传输变化的上下文片段。这种设计显著减少了冗余Token传输，提升了交互效率，特别适合需要持续上下文管理的LLM应用场景。虽然MCP增加了实现复杂度，但为长上下文对话、持续学习等场景提供了更优的解决方案

2025-07-25 18:57:45 1226

原创 RAG的5种分块策略

摘要：文本分块（Chunking）是大模型处理长文本的关键步骤，需根据需求选择合适策略。固定大小分块简单高效但可能破坏语义；语义分块基于标点或嵌入相似度保持语义连贯；递归分块分层切分，兼顾结构与大小；基于文档结构的分块利用标题、段落等逻辑单元，最大化保留原义。无通用最优策略，需结合文本类型（松散/结构化）、任务需求（检索/生成）及计算资源综合选择。例如，RAG系统优先语义分块，而快速原型可采用固定分块。

2025-07-23 15:18:29 970

原创 python-pptx 的layout 布局

在 PowerPoint 中，决定了幻灯片的占位符（如标题、内容、图片等）的排列方式。提供了对布局的编程控制。通过。

2025-07-18 21:06:57 1307

原创 LangChain 学习项目代码

"LangChain学习项目提供了一系列示例代码，帮助开发者掌握LangChain框架。项目包含从LLM基础、提示词模板到智能体、文档检索等10个模块的渐进式学习内容。每个示例都有详细注释，建议按编号顺序学习。核心功能包括LLM接口、提示词管理、链式组件、记忆状态等。使用前需安装依赖并配置API密钥。该项目适合希望系统学习LangChain的开发者。"

2025-07-16 15:42:22 245

原创 LangChain中提供的检索方法

LangChain提供了多种检索方法以适应不同场景需求。基于相似度的检索（如余弦相似度）是基础方法，可返回相关文档及相似度分数。为平衡相关性与多样性，最大边际相关性（MMR）算法确保结果覆盖面更广。增强检索策略包括多查询检索（提高召回率）、上下文压缩检索（减少令牌数量）、父文档检索（分层检索）和时间加权检索（优先最新结果）。基于代理的检索（如SelfQueryRetriever）支持复杂查询转换。此外，语义路由器可动态选择最适合的检索器，实现智能知识库管理。这些方法共同优化了检索效果与效率。

2025-07-16 15:32:25 961

原创 LangChain 数据检索（Retrieval）

摘要：大型语言模型（LLM）的知识受限于训练数据，无法获取实时或特定领域信息。数据检索（Retrieval）技术通过关键组件解决这一问题：文档加载器从多种数据源提取内容，文本分割器将长文档切分为语义完整的片段，嵌入模型将文本转换为向量表示以支持相似度搜索。典型流程包括数据加载、分割、向量化存储和检索，最终增强LLM生成能力。该技术拓展了LLM的应用边界，使其能结合外部知识库提供更精准的响应。

2025-07-16 10:16:54 1156

原创 LangChain 内存（Memory）

摘要：大型语言模型（LLM）本身无状态，无法记忆历史对话。LangChain通过内存机制（如ConversationBufferMemory）存储对话历史，使LLM能理解上下文。其核心流程包括保存、加载历史并注入到Prompt中。基础内存类型ConversationBufferMemory会存储全部历史，但可能导致提示过长；改进方案ConversationBufferWindowMemory仅保留最近N轮对话，优化上下文长度与成本。代码示例展示了如何利用这两种内存实现多轮对话，通过MessagesPlac

2025-07-12 23:36:41 689

原创 Agent 设计模式

大型语言模型（LLM）的Agent设计模式包括四种核心模式：工具使用模式（调用外部工具扩展能力）、思考-行动模式（结合推理与工具使用的循环）、反思模式（评估任务结果并自我改进）以及规划模式（分解复杂任务为子任务）。这些模式通过赋予LLM规划、反思、工具调用和协作能力，使其能够处理更复杂的智能任务。文中提供了每种模式的流程图和代码示例，展示了从基础工具调用到多轮反思优化的完整Agent设计思路。这些模式可单独使用或组合应用，为构建高效AI系统提供方法论支持。

2025-07-12 22:59:24 573

原创 LangChain 代理（Agents）学习

LangChain代理核心机制解析 LangChain中的代理(Agents)赋予语言模型自主决策能力，通过"思考-行动-观察"循环(TAB)完成复杂任务。其核心组件包括： TAB循环机制：模型持续执行思考决策、调用工具、观察结果的迭代过程工具系统：通过@tool装饰器将函数转化为代理可调用的工具，包含名称、描述和执行逻辑 ReAct代理模式：结合推理(Reasoning)和行动(Acting)，模型生成包含思考过程的结构化输出记忆功能：通过内存模块保存对话历史，实现上下文感知的持续

2025-07-12 21:23:43 533

原创 LLM 不知道答案，但是知道去调用工具获取答案？

摘要：大型语言模型（LLM）调用工具并非因其“知道”正确答案，而是通过模式识别与指令遵循实现。当面对超出其知识边界或低置信度的问题（如时效性事实），LLM会匹配工具描述（如搜索工具的功能说明），并遵循结构化提示（如ReAct框架）调用工具。这种机制使其避免随意生成错误答案，转而依赖外部工具获取可靠信息。代理框架的核心是为LLM提供决策逻辑和执行能力，使其像遵循指令的“学生”优先选择工具而非猜测。关键在于：识别问题类型评估自身知识局限性匹配工具用途严格遵循提示指令。

2025-07-12 21:21:29 435

原创 LangChain 与 LlamaIndex：RAG 项目中的双雄对比

RAG（检索增强生成）是提升大语言模型应用的关键技术，LangChain和LlamaIndex是两大主流框架。LangChain强调模块化编排，通过LCEL将RAG流程组件化连接，适用于复杂应用开发；而LlamaIndex采用"数据优先"理念，专注于构建高效知识索引和智能查询引擎，优化数据检索。两者在RAG实现上各具特色：LangChain灵活通用，支持多种LLM应用场景；LlamaIndex则在数据处理和检索环节更高效。开发者可根据项目需求选择框架——LangChain适合需要高度定制

2025-07-12 20:46:12 753 1

原创 LangChain 的链（Chain）

链（Chains）是LangChain的基石，它允许开发者将多个独立的组件连接在一起，形成一个有向无环图（DAG），从而构建出功能更强大、更复杂的LLM驱动型应用。一个链可以是一个简单的顺序执行流程，也可以是包含条件逻辑、并行执行的复杂工作流。

2025-07-12 17:13:28 729

原创一种新的参数高效微调方法-LoRI

这篇论文提出了一种新的参数高效微调（PEFT）方法，名为 LoRA with Reduced Interference (LoRI)。LoRI 旨在解决传统 LoRA 的局限性

2025-06-21 16:24:08 588

原创 DeepSpeed 深度学习学习笔记：高效训练大型模型

DeepSpeed是一个针对大型深度学习模型训练优化的开源库，由微软开发。它通过核心技术ZeRO（零冗余优化器）系列解决了训练千亿参数模型时的显存瓶颈问题。ZeRO分为三个阶段：Stage 1（优化器状态分片）可节省约4倍显存，Stage 2（梯度分片）共节省7倍显存，Stage 3（参数分片）实现最大显存优化。此外，ZeRO-Offload技术可将部分计算卸载到CPU/硬盘。DeepSpeed还提供高效的混合精度训练、通信优化和易用API，支持从单GPU到数千GPU的弹性扩展，使大规模模型训练更加高效和可

2025-06-20 15:02:54 2725

原创 QLoRA (Quantized Low-Rank Adaptation)浅析

QLoRA：高效大模型微调方法 QLoRA（Quantized Low-Rank Adaptation）是一种创新的模型微调技术，在保持LoRA参数效率的基础上，通过三项关键技术显著降低显存需求：1）采用4-bit NormalFloat量化预训练模型权重；2）对量化参数进行二次量化（Double Quantization）进一步节省内存；3）引入分页优化器管理优化器状态。这种方法能在单张消费级GPU（如24GB显存的RTX 3090）上微调650亿参数的大模型，同时保持接近全参数微调的性能。QLoRA通过

2025-06-19 21:28:38 1393

原创 LoRA 浅析

LoRA是一种参数高效的微调方法，通过冻结预训练语言模型的权重，仅训练新增的低秩矩阵来减少计算资源。其原理是将线性层分解为Wx+BAx，其中BA是远小于原始矩阵的低秩矩阵。LoRA在微调时只训练A和B矩阵，推理时可合并或单独计算。实现中包含缩放系数调节影响力，经验表明设为秩的2倍效果最佳。相比全参数微调，LoRA资源消耗更少，但在需要大改的任务上性能可能略降。

2025-06-19 16:55:02 505

Aspose.Words.18.11.0.nupkg

java多线程拥有同一把锁就代表拥有同一种资源吗