AI成长日志-CSDN博客

原创【GitHub开源项目专栏】Letta（原MemGPT）：让LLM拥有持久记忆的革命性架构

Letta（MemGPT）通过虚拟上下文管理分层记忆：主上下文 + 外部存储主动管理：LLM自主决定何时swap数据无限对话：跨会话持久记忆RAG增强：超越被动检索的智能知识管理对于需要长期记忆和多会话上下文的应用，Letta提供了一个优雅的解决方案。

2026-04-30 11:15:08 89

原创【GitHub开源项目专栏】Chroma向量数据库实战指南：轻量级嵌入式AI应用

Embedding函数是将文本转换为向量的组件。Chroma支持多种内置和自定义的Embedding函数。场景推荐程度说明个人项目/PoC⭐⭐⭐⭐⭐零配置，快速启动小团队知识库⭐⭐⭐⭐部署简单，维护成本低中等规模RAG⭐⭐⭐性能足够，注意优化亿级向量⭐⭐建议使用Milvus等分布式方案。

2026-04-30 11:14:14 299

原创【Agentic RL】5.2 RLHF与PPO训练实战：从理论到代码实现

在RLHF中，我们用它来衡量新策略与**参考策略（SFT模型）**的差异。RLHF三阶段：SFT → Reward Model → PPO优化KL约束是防止奖励黑客的关键PPO通过裁剪机制限制策略更新幅度DPO提供了更简单的替代方案。

2026-04-30 11:12:10 260

原创【Agentic RL】5.1 奖励模型训练原理：让AI学会理解人类偏好

Token序列: [CLS] What is the capital of France?↑最后一个token的hidden state设计原理因果语言模型的attention只能看到之前的token最后一个token的hidden state包含了从[CLS]到该token的所有信息这相当于一个「全局摘要」其他可能的提取方式Mean pooling：取所有token的平均Attention-weighted：使用attention权重加权。

2026-04-30 11:11:32 138

原创【Agentic RL】4.8 CPPO加速算法：Completion Pruning优化

CPPO的核心洞察：不是所有样本对训练都有同等贡献剪枝策略：保留高优势样本，丢弃低优势样本性能提升：8.32x加速（GSM8K）到3.51x加速（MATH）动态Allocation：避免GPU空闲，提升整体利用率。

2026-04-30 11:10:51 292

原创【Agentic RL】4.7 RLHF框架实战：从理论到生产级实现

数据是基础：高质量的SFT数据和偏好数据决定上限奖励模型是关键：准确反映人类偏好的奖励函数PPO优化是核心：在奖励最大化和策略保真度间平衡工程实践：稳定性、资源优化、监控一个都不能少学习检查理解完整RLHF pipeline的组件和交互能在TRL中实现各阶段训练识别并解决常见训练问题建立评估体系监控模型质量。

2026-04-30 11:10:16 163

原创【Agentic RL】4.6 DPO算法详解：直接偏好优化的数学原理与实现

理论优雅：利用解析解绕过显式奖励模型实践简单：只需标准的语言模型训练基础设施稳定可靠：不需要复杂的PPO采样和裁剪学习检查能解释Bradley-Terry模型能推导DPO损失函数能在TRL中实现DPO训练能根据场景选择合适的β值。

2026-04-30 11:09:32 320

原创【Agentic RL】4.5 GRPO算法详解：群体相对策略优化

"""计算组内归一化优势"""# 计算组均值和标准差# 归一化优势"""计算GRPO损失Args:log_probs: 新策略的log概率 [batch * group_size, seq_len, vocab]ref_log_probs: 参考策略的log概率advantages: 优势函数 [batch * group_size]mask: 有效token掩码"""# 计算策略比率# 裁剪# GRPO损失：使用组内优势的均值。

2026-04-30 11:08:58 727

原创【Agentic RL】4.4 PPO在LLM中的实战应用

PPO在LLM中的应用是强化学习技术的一次重要突破。它通过奖励信号而非标注数据，让模型学习人类偏好。四大模型协同：策略模型生成、价值模型估计、奖励模型评判、参考模型约束裁剪机制稳定更新：限制策略变化幅度，避免训练崩溃KL约束保持能力：确保模型不偏离基础能力GRPO提供简化：减少资源需求，适用于推理任务理解PPO的原理和实现，对于深入理解大模型对齐技术至关重要。

2026-04-30 11:07:56 695

原创【Agentic RL】4.3 GAE：广义优势估计

δtrtγVst1−VstδtrtγVst1−VstAtn1δtγδt1⋯γnδtnAtn1δtγδt1⋯γnδtn推导：展开 A_t^{(n+1)} = r_t + γr_{t+1} + … + γ^n r_{t+n} + γ^{n+1}V(s_{t+n+1}) - V(s_t)

2026-04-30 11:07:19 370

原创【Agentic RL】4.2 PPO裁剪目标函数

在上一章中，我们详细探讨了TRPO（信任域策略优化）算法。TRPO通过KL散度约束确保策略更新的稳定性，并提供理论上的单调改进保证。这个比率衡量的是：新策略与旧策略在相同状态s_t下选择动作a_t的概率之比。：鼓励增加选择好动作的概率，但当 r_t 超过 1+ε 时停止增加。这一公式是PPO的精髓所在，下面我们将详细剖析其设计原理。：惩罚选择坏动作，但当 r_t 过小时停止进一步惩罚。：新策略不会因为一次大的策略更新而获得过大的优势。其中 β 是自适应调整的惩罚系数。min 操作确保我们取两者中的。

2026-04-26 00:42:08 336

原创【Agentic RL】4.1 信任域方法原理

DKLπθold⋅∣s∥πθ⋅∣s∑aπθolda∣slog⁡πθolda∣sπθa∣sDKLπθold⋅∣s∥πθ⋅∣s))a∑πθolda∣slogπθa∣sπθolda∣s"""计算两个高斯策略之间的KL散度参数:mu1, mu2: 两个高斯分布的均值。

2026-04-26 00:41:37 404

原创【AI原生开发实战】6.2 Agent生产部署与可观测性

Agent可观测性是AI原生开发的关键能力，它让「黑盒」Agent变得透明可分析。三层数据：意图流、推理轨迹、成本指标追踪标准化：OpenTelemetry是事实标准混合评估闭环优化：评估驱动持续改进构建Agent可观测性不是为了监控而监控，而是为了让Agent从「可能出错」变成「持续变好」。

2026-04-26 00:40:01 413

原创【AI原生开发实战】6.1 LLM微服务架构设计

生命周期驱动：根据LLM推理的五个阶段划分服务边界资源感知：GPU显存、网络带宽、KV缓存是核心资源弹性优先：Kubernetes原生支持GPU调度和弹性伸缩可观测性：多维指标监控，追踪每个推理阶段。

2026-04-26 00:39:24 364

原创【AI原生开发实战专栏】5.5 RAG高级技巧：从Naive RAG到生产级系统

高级RAG技巧的核心是全流程优化预检索：Query Rewriting/HyDE提升召回检索层：Hybrid Search + Parent Doc平衡精度后处理：Reranking + Compression提升精度评估：RAGAS等指标量化效果实践建议从Naive RAG开始，逐步迭代每个优化点单独验证效果记录不同配置的效果对比。

2026-04-25 21:46:04 155

原创【AI原生开发实战】5.4 RAG评估框架：RAGAs/TruLens实战

RAGAs（Retrieval-Augmented Generation Assessment）是由IBM Research开源的RAG评估框架，其核心特点是无参考评估——无需人工标注的黄金标准答案。# RAGAs安装 pip install ragas # 核心依赖 """"""TruLens提供了更灵活的评估框架，通过反馈函数机制实现可定制的评估。

2026-04-25 21:45:25 162

原创【AI原生开发实战专栏】5.3 生产级Agent部署：从原型到规模化运营

安全第一：输入验证、认证授权、限流防护成本可控：Token统计、模型路由、预算告警稳定可靠：监控告警、灰度发布、快速回滚持续优化：A/B测试、自动分析、Prompt迭代实践建议先实现监控，再上线服务每个功能都有回滚方案成本和用户体验同步优化。

2026-04-25 21:44:44 87

原创【AI原生开发实战专栏】5.2 向量数据库深度对比：选型指南

数据库优势劣势推荐指数Milvus功能全面、分布式复杂度高⭐⭐⭐⭐Qdrant性能优秀、过滤强生态较小⭐⭐⭐⭐⭐Chroma简单易用性能有限⭐⭐⭐Pinecone零运维成本高⭐⭐⭐⭐。

2026-04-25 21:44:07 140

原创【AI原生开发实战专栏】5.1 RAG知识库构建实战：从数据预处理到向量存储

RAGAS（Retrieval Augmented Generation Assessment）由Shahul Es等人于2023年提出，是一个专门为RAG系统设计的开源评估框架。其核心标签是**“无参考评估”**——无需人工标注的黄金标准答案，极大降低了评估门槛。

2026-04-25 21:30:54 319

原创【AI原生开发实战专栏】4.4 工具调用最佳实践

工具调用（Tool Calling）是指AI Agent根据用户意图，选择并执行相应工具以完成特定任务的过程。这一机制是现代AI Agent系统的核心能力之一。1.2 工具调用的价值能力扩展：弥补LLM原生能力的不足实时性：获取实时数据和信息准确性：执行精确计算而非估算自动化：完成端到端的任务执行1.3 常见问题在实际生产环境中，工具调用系统面临诸多挑战：场景：工具之间存在依赖关系，必须按顺序执行。2.2 并行调用模式场景：工具之间无依赖，可以同时执行以提高效率。2.3 条件调用模

2026-04-25 21:30:19 275

原创【AI原生开发实战专栏】4.3 自定义工具开发

在AI Agent系统中，工具是Agent与外部世界交互的桥梁。它们扩展了大语言模型（LLM）的能力边界，使其能够执行实际操作，如查询数据库、调用API、执行代码等。自定义工具是指开发者根据特定业务需求，自己实现的工具组件。与内置工具相比，自定义工具具有更高的灵活性和针对性，能够满足各种独特的业务场景。能力扩展：弥补LLM原生能力的不足（如实时数据获取、精准计算）业务定制：实现特定领域的专业功能数据安全：通过本地化处理敏感数据成本优化：减少不必要的LLM调用每个工具应该只做一件事，并且做好。

2026-04-25 21:29:32 306

原创【AI原生开发实战】4.2 MCP协议深度解析：模型上下文协议

MCP解决N×M集成问题：通过标准化协议实现AI应用与数据源的解耦三大原语：Resources（应用控制）、Tools（模型控制）、Prompts（用户控制）开放生态：跨厂商支持，活跃的社区发展安全第一：标准化的权限管理和审计机制。

2026-04-25 16:41:25 394

原创【AI原生开发实战】4.1 工具调用技术原理：从ReAct到Function Calling

检测何时需要调用工具输出结构化的函数名和参数无需复杂的提示工程，模型直接输出符合特定格式的JSON。工具调用扩展AI能力：让模型能够获取实时信息、执行外部操作ReAct框架：通过"思考-行动-观察"循环实现可解释、可纠正的推理：模型原生支持的工具调用，更简洁可靠工具设计原则：单一职责、幂等性、安全性。

2026-04-25 16:40:50 324

原创【AI原生开发实战】3.5 Agent评估与优化：构建可量化的AI系统

准备评估数据"question": "退款流程是什么？","answer": "退款需要联系客服，3-5个工作日到账。","contexts": ["退款政策：联系客服申请，提供订单号，3-5个工作日到账。"]# 评估# {# }Agent评估是多维度的：不仅要看结果，还要看过程工具调用准确率是Agent特有的关键指标等工具可以大幅简化评估工作持续评估是Agent迭代优化的基础。

2026-04-25 16:40:15 345

原创【GitHub开源项目专栏】Agno框架深度解析：5000倍性能碾压LangGraph的秘密

tool"""获取股票价格"""极致性能：微秒级实例化，KB级内存真正无锁定：任何模型、任何提供商渐进式架构：从简单到复杂无缝升级丰富的工具生态：100+开箱即用工具如果你正在寻找一个高性能、易用、灵活的Agent框架，Agno值得一试。

2026-04-21 18:54:05 508

原创【笔面试算法学习专栏】贪心算法基础：从区间调度到证明技巧

贪心算法（Greedy Algorithm）通过一系列局部最优选择来构造全局最优解。每步只做一个决策，一旦做出就不再回溯。贪心：自顶向下，只依赖当前状态，无回退DP：自底向上，依赖所有子问题状态，有状态转移贪心是不可反悔的一锤子买卖，DP是走一步看一步的棋局。给你 n 个区间，每个区间 [start, end]，选取最多的两两互不重叠的区间。核心洞察：区间的结尾越早，留给后续的空间就越大。识别问题结构：是否满足贪心选择性质？设计贪心策略：局部最优的度量标准是什么？严格证明正确性。

2026-04-21 18:53:01 408

原创【笔面试算法学习专栏】栈与队列：有效括号与单调栈

单调栈是一种特殊的栈，其栈内元素保持单调递增或单调递减的顺序。下一个更大/更小元素（Next Greater/Smaller Element）每日温度问题（力扣739）柱状图中最大的矩形（力扣84）场景数据结构关键点括号匹配栈LIFO特性单调性问题单调栈保持单调性滑动窗口单调队列/堆双端操作BFS遍历队列FIFO特性表达式求值栈操作符优先级。

2026-04-21 18:52:08 130

原创【笔面试算法学习专栏】拓扑排序与图论建模

拓扑排序是对有向无环图（DAG）顶点的一种排序方式，使得对于每一条有向边(u, v)，顶点u都排在顶点v之前。形象理解：想象你要学习大学的课程。有些课程有先修要求，比如"数据结构"必须在"算法设计"之前学习。拓扑排序就是找到一个合理的学习顺序，满足所有先修约束。图论建模的核心是将实际问题抽象为图结构，然后用图算法解决。建模三问节点是什么？- 问题中的实体边是什么？- 实体之间的关系边有方向吗？- 关系是否单向识别实体：找出问题中的所有对象确定关系：分析对象之间的依赖/顺序关系构建图。

2026-04-21 18:51:21 279

原创【笔面试算法学习专栏】堆与优先队列：TopK问题与中位数

最大堆（Max Heap）：任意节点的值不小于其子节点的值，根节点是最大值最小堆（Min Heap）：任意节点的值不大于其子节点的值，根节点是最小值堆的核心特性使得我们可以在O(1)时间内获取最大/最小元素，同时在O(log n)时间内完成插入和删除操作。场景堆类型原因Top K大小顶堆堆顶是第K大的元素Top K小大顶堆堆顶是第K小的元素中位数双堆两堆夹着中位数合并有序最小堆始终选出最小元素哈夫曼最小堆合并最小成本。

2026-04-21 18:50:41 326

原创【笔面试算法学习专栏】堆与优先队列：Top-K问题的最优解法

堆是一种完全二叉树上浮：O(log n)，用于插入下沉：O(log n)，用于删除/重建建堆：O(n)Top-K问题的最优解：用大小为K的堆，时间 O(n log K)，空间 O(K)。

2026-04-21 18:50:07 309

原创【笔面试算法学习专栏】图论算法基础：DFS、BFS与并查集

DFS：递归实现，用栈模拟，适用于连通性检测BFS：层序遍历，用队列实现，适用于最短路径并查集：集合合并与查询，适用于动态连通性。

2026-04-21 18:49:32 240

原创【笔面试算法学习专栏】动态规划进阶·股票买卖问题：从一维状态到空间优化

股票买卖系列是LeetCode上最具代表性的动态规划专题之一。一维状态压缩二维状态定义多笔交易处理等。121. 买卖股票的最佳时机：只能交易一次122. 买卖股票的最佳时机 II：可以交易无数次123. 买卖股票的最佳时机 III：最多交易两次通过这三道题，我们将掌握动态规划状态定义的精髓，理解「状态」与「选择」的关系。dp[i][0]：第i天结束时不持有股票的最大利润dp[i][1]：第i天结束时尚有股票的最大利润这个定义为什么好？因为它覆盖了所有可能性。

2026-04-21 18:48:48 339

原创【笔面试算法学习专栏】动态规划基础·经典问题精讲：最大子数组和与打家劫舍

动态规划（Dynamic Programming，简称DP）是算法面试中最考察理解深度的题型之一。与其说它是一种具体的算法，不如说它是一种解决问题的思想框架——通过将原问题拆解为相互重叠的子问题，利用子问题的最优解来构建原问题的最优解。53. 最大子数组和（LeetCode 53）与198. 打家劫舍最优子结构与无后效性。掌握它们，就等于拿到了打开动态规划大门的钥匙。状态是子问题的解的表示。通常我们用dp[i]表示以第i个元素结尾的某种最优解。状态定义是DP中最关键的一步——定义得好，转移方程自然清晰；

2026-04-21 18:48:13 461

空空如也

空空如也