文艺倾年-CSDN博客

原创【强化学习】数学推导专题，20W字总结（十五）

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本文讲解【强化学习】数学推导专题，20W字总结（十五），期待与你一同探索、学习、进步，一起卷起来叭！🎯想随时搜我的文章、让 AI 帮你深度讲解甚至出面试题？复制下面这段提示词丢进你的 Claude Code——它会自动生成一个本地 SKILL，之后你直接说「搜一下强化学习的文章」就行。RSS 自动同步最新内容，不用手动存任何文件。一键订阅，长期可用。🚀。

2026-06-16 13:52:54 300

原创【强化学习】思维链 CoT，20W字总结（十四）

先把"推理"说清楚。这里说的推理，指解答那些需要多步骤、含中间过程的复杂问题——比如数学推导、解谜、复杂编程。“法国首都是哪？”——这是事实问答，不算推理。“一列火车 60 英里/小时开 3 小时走多远？”——这是推理（要先想到"距离 = 速度 × 时间"）。所谓推理模型，就是专门优化来处理这类复杂推理任务的 LLM（如 DeepSeek-R1、OpenAI o1）。直接写在回答里（用户能看到），或在内部多轮迭代但不展示（像 o1）。擅长不擅长演绎/归纳推理（谜题、证明）快速粗略的回答。

2026-06-16 13:51:49 238

原创【强化学习】用 GRPO 微调 LLM，20W字总结（十三）

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本文讲解【强化学习】用 GRPO 微调 LLM，20W字总结（十三），期待与你一同探索、学习、进步，一起卷起来叭！🎯想随时搜我的文章、让 AI 帮你深度讲解甚至出面试题？复制下面这段提示词丢进你的 Claude Code——它会自动生成一个本地 SKILL，之后你直接说「搜一下强化学习的文章」就行。RSS 自动同步最新内容，不用手动存任何文件。一键订阅，长期可用。🚀。

2026-06-16 13:50:01 185

原创【强化学习】DeepSeek 原理深度讲解，20W字总结（十二）

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本文讲解【强化学习】GRPO 与 DeepSeek，20W字总结（十二），期待与你一同探索、学习、进步，一起卷起来叭！🎯想随时搜我的文章、让 AI 帮你深度讲解甚至出面试题？复制下面这段提示词丢进你的 Claude Code——它会自动生成一个本地 SKILL，之后你直接说「搜一下强化学习的文章」就行。RSS 自动同步最新内容，不用手动存任何文件。一键订阅，长期可用。🚀。

2026-06-16 13:48:47 587

原创【强化学习】用 DPO 微调 LLM，20W字总结（十一）

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本文讲解【强化学习】用 DPO 微调 LLM，20W字总结（十一），期待与你一同探索、学习、进步，一起卷起来叭！🎯想随时搜我的文章、让 AI 帮你深度讲解甚至出面试题？复制下面这段提示词丢进你的 Claude Code——它会自动生成一个本地 SKILL，之后你直接说「搜一下强化学习的文章」就行。RSS 自动同步最新内容，不用手动存任何文件。一键订阅，长期可用。🚀。

2026-06-16 13:47:31 248

原创【强化学习】DPO 甩掉奖励模型，20W字总结（十）

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本文讲解【强化学习】DPO 甩掉奖励模型，20W字总结（十），期待与你一同探索、学习、进步，一起卷起来叭！🎯想随时搜我的文章、让 AI 帮你深度讲解甚至出面试题？复制下面这段提示词丢进你的 Claude Code——它会自动生成一个本地 SKILL，之后你直接说「搜一下强化学习的文章」就行。RSS 自动同步最新内容，不用手动存任何文件。一键订阅，长期可用。🚀。

2026-06-16 01:12:50 184

原创【强化学习】用 PPO 微调 LLM，20W字总结（九）

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本文讲解【强化学习】用 PPO 微调 LLM，20W字总结（九），期待与你一同探索、学习、进步，一起卷起来叭！🎯想随时搜我的文章、让 AI 帮你深度讲解甚至出面试题？复制下面这段提示词丢进你的 Claude Code——它会自动生成一个本地 SKILL，之后你直接说「搜一下强化学习的文章」就行。RSS 自动同步最新内容，不用手动存任何文件。一键订阅，长期可用。🚀。

2026-06-16 01:03:08 344

原创【强化学习】RLHF 与人类对齐，20W字总结（八）

毕竟，你怎么用数学公式定义"乐于助人"“诚实”“无害”？没法直接写，但人类能判断——那就让人类当裁判。

2026-06-14 15:35:14 106

原创【强化学习】用 PPO 玩转倒立摆，20W字总结（七）

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本文讲解【强化学习】用 PPO 玩转倒立摆，20W字总结（七），期待与你一同探索、学习、进步，一起卷起来叭！🎯想随时搜我的文章、让 AI 帮你深度讲解甚至出面试题？复制下面这段提示词丢进你的 Claude Code——它会自动生成一个本地 SKILL，之后你直接说「搜一下强化学习的文章」就行。RSS 自动同步最新内容，不用手动存任何文件。一键订阅，长期可用。🚀。

2026-06-14 15:33:22 470

原创【强化学习】PPO 让智能体稳步提升，20W字总结（六）

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本文讲解【强化学习】PPO 让智能体稳步提升，20W字总结（六），期待与你一同探索、学习、进步，一起卷起来叭！🎯想随时搜我的文章、让 AI 帮你深度讲解甚至出面试题？复制下面这段提示词丢进你的 Claude Code——它会自动生成一个本地 SKILL，之后你直接说「搜一下强化学习的文章」就行。RSS 自动同步最新内容，不用手动存任何文件。一键订阅，长期可用。🚀。

2026-06-14 15:32:27 170

原创【强化学习】Actor-Critic 演员、评论家，20W字总结（五）

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本文讲解【强化学习】Actor-Critic 演员、评论家，20W字总结（五），期待与你一同探索、学习、进步，一起卷起来叭！🎯想随时搜我的文章、让 AI 帮你深度讲解甚至出面试题？复制下面这段提示词丢进你的 Claude Code——它会自动生成一个本地 SKILL，之后你直接说「搜一下强化学习的文章」就行。RSS 自动同步最新内容，不用手动存任何文件。一键订阅，长期可用。🚀。

2026-06-14 15:31:14 180

原创【强化学习】REINFORCE 与基线，20W字总结（四）

∇θJθE∑tG⋅∇θlog⁡πθAt∣St∇θJθEt∑G⋅∇θlogπθAt∣St回报GGG是个随机变量——同一条策略，不同回合能跑出完全不同的轨迹，回报也天差地别。这个"波动"就是方差。方差大意味着什么？梯度估计忽大忽小。这一步让你往左猛冲，下一步又让你往右撤，策略在原地打转，损失曲线像心电图。样本少的时候尤其明显——你根本分不清，到底是"真的该往这走"，还是"只是这把运气好"。

2026-06-14 15:08:07 203

原创【强化学习】策略梯度法实战，20W字总结（三）

目标：让πθ\pi_\thetaπθ网络输出的动作概率分布越来越好，使期望回报JθJ(\theta)Jθ最大方法：用采样轨迹的回报作为权重，梯度上升更新网络参数改进路径：原始策略梯度 → REINFORCE（去掉历史噪声）→ 带基线（降低方差）代码层面，核心就是三层：策略网络Policy、智能体Agent（含采样和更新）、训练循环。但策略梯度法有个老大难问题——步子太大容易训崩。

2026-06-14 15:06:41 238

原创【强化学习】MDP、贝尔曼方程与CartPole 编程，20W字总结（二）

强化学习需要一个形式化的数学框架来描述智能体与环境的互动。这个框架就是马尔可夫决策过程要素数学表示含义状态迁移ps′∣saps′∣sa在状态sss执行动作aaa后，迁移到s′s's′的概率奖励函数rsas′rsas′从状态sss执行动作aaa迁移到s′s's′时获得的奖励策略πa∣sπa∣s在状态sss下选择动作aaa的概率MDP：用状态迁移概率ps′∣sap(s'|s,a)ps′∣sa。

2026-06-14 14:27:38 540

原创【强化学习】强化学习基本概念，20W字总结（一）

一个智能体（agent），怎么在复杂、不确定的环境（environment）中，拿到尽可能多的奖励？就这么一句话。但这句话背后，藏着 AlphaGo 击败李世石的秘诀，藏着 ChatGPT 对齐人类偏好的 RLHF 技术，也藏着自动驾驶决策系统的核心框架。智能体和环境。它俩一直在互动——智能体观察环境的状态，做出一个动作（action）；环境接收到动作后，返回下一个状态和当前动作带来的奖励（reward）。智能体的目标只有一个：拿更多的奖励。一个最经典的例子——倒立摆（CartPole）。

2026-06-14 12:42:03 306

原创【Agent & SWE】如何针对代码审查智能体进行基准测试

研究问题：这篇文章要解决的问题是如何评估自动化代码审查工具的有效性。具体来说，现有的评估方法主要基于文本相似度或嵌入相似度，但这些方法无法准确衡量自动化生成的代码审查评论是否与人类审查员提出的问题一致。研究难点：现有评估方法的局限性、人类审查评论的噪声和不完整性、以及自动化工具输出的随机性和不可重复性。基于文本相似度的评估方法（如BLEU、ROUGE、chrF和嵌入相似度）、基于本地化的评估方法、以及使用大型语言模型作为评委的方法。

2026-04-12 17:31:08 470

原创【Agent & 视频剪辑】通过音乐同步进行视频剪辑

研究问题：这篇文章要解决的问题是如何利用音乐同步自动编辑数小时的长视频素材，生成有意义且富有吸引力的短视频。当前社交媒体上的视频编辑需要手动对齐音频和视频内容，这一过程耗时且重复，对电影制作人和专业内容创作者来说是一个巨大的挑战。处理长上下文的限制、实现上下文感知的叙事、以及细粒度的跨模态对齐。具体来说，现有的自动化视频编辑框架通常忽略了音频的关键作用，导致输出结果缺乏叙事连贯性和视觉音频和谐。相关工作：该问题的研究相关工作有：基于模板的方法、高光检测方法和文本驱动的方法。

2026-04-10 15:42:36 525

原创【AI Coding笔试】2026最新 Claude/OpenCode + OpenClaw 进阶实战二十万字讲解

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本文讲解【2026持续更新】OpenClaw + OpenCode/Claude + 高阶玩法 + 源码讲解百万字教程，期待与你一同探索、学习、进步，一起卷起来叭！

2026-03-28 23:52:56 5206 1

原创【强化学习&SWE】如何评估人工智能代理在持续软件演化中的表现

研究问题：这篇文章要解决的问题是如何评估人工智能代理在持续软件演化中的表现。随着AI代理越来越多地被部署为长期运行的系统，自主构建和持续演化定制软件以适应动态环境变得至关重要。然而，现有的基准测试主要评估代理在孤立的一次性编程任务上的表现，忽略了现实世界软件演化中的时间依赖性和技术债务。如何捕捉软件演化的长期动态、如何在连续环境中评估代理的性能、如何处理演化过程中出现的错误传播和技术债务。

2026-03-24 00:21:49 480

原创【强化学习&SWE】如何解决长距离推理和复杂多文件代码库的导航能力

研究问题：这篇文章要解决的问题是如何在代码智能领域缩小开放权重模型与专有领导模型（如Claude 4.5 Sonnet1）之间的差距。具体来说，当前的长距离推理和复杂多文件代码库的导航能力存在显著不足。研究难点：该问题的研究难点包括：长距离推理和复杂代码库的导航、模型在分布变化下的稳定性、以及如何在实际部署中优化模型容量和部署占用空间。相关工作：该问题的研究相关工作包括通用智能通过领域特定专业化显著提升的研究，以及在代码智能领域中，现有开放权重模型与专有模型之间的性能差距。

2026-03-21 22:06:20 434

原创【强化学习&SWE】如何无容器化进行强化学习训练

研究问题：这篇文章要解决的问题是如何在软件工程（SWE）领域中，通过无容器化的方法进行强化学习（RL）训练，以提高训练效率和可扩展性。现有的基于容器的SWE代理框架虽然有效，但存在存储开销大、环境设置慢且需要容器管理权限等问题。研究难点：在大规模训练时，预构建的容器镜像会带来显著的资源开销；容器管理基础设施的限制使得资源受限的研究环境难以扩展；现有的方法在存储和准备时间上的开销较大。SWE-agent框架、SWE-Gym、SWE-smith和SWE-Mirror等方法。

2026-02-21 09:46:39 1123

原创【源码精讲+简历包装】LeetcodeRunner—手搓调试器轮子（20W字-下）

LeetCode Runner 这个项目的诞生，源于几个很实际的痛点。第一个痛点是调试成本高。LeetCode 虽然提供了在线调试功能，但需要开通会员（国内版 199 元/年，国际版 159 美元/年）。对于学生党和刚工作的开发者来说，这是一笔不小的开支。而且在线调试有很多限制：不能设置条件断点，不能查看复杂对象的内部结构，不能自定义调试表达式。最关键的是，在线调试依赖网络，如果网络不好，调试体验会很差。第二个痛点是数据构造麻烦。

2026-02-15 19:31:44 729

原创【源码精讲+简历包装】LeetcodeRunner—手搓调试器轮子（20W字-上）

LeetCode Runner 这个项目的诞生，源于几个很实际的痛点。第一个痛点是调试成本高。LeetCode 虽然提供了在线调试功能，但需要开通会员（国内版 199 元/年，国际版 159 美元/年）。对于学生党和刚工作的开发者来说，这是一笔不小的开支。而且在线调试有很多限制：不能设置条件断点，不能查看复杂对象的内部结构，不能自定义调试表达式。最关键的是，在线调试依赖网络，如果网络不好，调试体验会很差。第二个痛点是数据构造麻烦。

2026-02-15 19:12:13 1703

原创【免训练&测试时扩展】Code Agent可控进化

本文提出受控自我进化（CSE）框架，通过多样化规划初始化、遗传进化和分层进化记忆，解决代码优化中探索效率低的问题。实验表明，CSE在算法效率指标上优于现有方法，尤其在内存优化方面表现突出。该框架实现了早期高效性和持续改进，强调了反馈驱动探索的重要性。未来可探索将进化轨迹蒸馏为训练信号以增强基础模型。

2026-02-13 11:03:45 942

原创【免训练&测试时扩展】通过任务算术转移思维链能力

本文提出了一种通过任务算术提取和转移推理能力的方法。研究使用公开的QWEN2.5模型，定义推理向量为GRPO与SFT模型参数的差值，并将其添加到目标模型中以增强推理能力。实验在多个基准测试中验证了方法的有效性，1.5亿参数模型在GSM8K上的准确率提升4.9%。结果表明推理能力可作为模块化组件进行转移，但该方法依赖模型间的严格兼容性和现有供体模型。研究为开源AI时代提供了一种高效的模型增强途径，但跨模型家族的转移仍具挑战性。

2026-02-12 11:26:34 1054

原创【免训练&测试时扩展】不确定性影响模型输出

大语言模型（LLMs）已能通过长思维链（CoT）解决复杂推理任务（如数学计算、程序合成），但其生成的推理轨迹准确性直接决定最终答案正确性。事后迭代优化（Post-hoc Iterative Refinement）：模型先生成完整草稿，再通过多轮反馈进行批判和修订（如Self-Refine），但需多次完整前向传播，导致 latency 和计算成本显著增加。内在自校正训练（Training for Intrinsic Self-Correction）

2025-10-15 15:53:37 752

原创【低训练&测试时推理】测试时针对特定样本进行语言模型优化

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本专栏《人工智能》旨在记录最新的科研前沿，包括等相关领域，期待与你一同探索、学习、进步，一起卷起来叭！💻时间：202505💭推荐指数：🌟🌟🌟🌟🌟💭开源代码：https://github.com/maple-research-lab/SLOT往期精彩专栏内容，欢迎订阅：🔗🔗🔗🔗🔗🔗🔗。

2025-10-14 14:44:29 781

原创【免训练&强化学习】针对GRPO进行免训练

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本专栏《人工智能》旨在记录最新的科研前沿，包括等相关领域，期待与你一同探索、学习、进步，一起卷起来叭！💻时间：202510💭推荐指数：🌟🌟🌟🌟🌟💭开源代码：https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO往期精彩专栏内容，欢迎订阅：🔗🔗🔗🔗🔗🔗。

2025-10-14 14:04:22 1098

原创【Vibe Coding】全面解读Vibe Coding（一）

在2025年的今天，软件开发领域正经历一场静默却深刻的革命。您是否曾有过绝妙的软件创意，却因不熟悉复杂的编程语言而未能实现？在这个AI飞速发展的时代，我们在思考：编程，能否不再是冰冷的技术，更是成为我们表达情感、挥洒创意的温暖媒介？答案是肯定的。而Vibe编程（Vibe Coding），正是这一愿景的实现路径。如果你是一位技术爱好者，很可能已经听说过“Vibe Coding”（氛围编程）这个充满未来感和些许神秘色彩的词汇。

2025-10-13 14:12:10 2759

原创【八股消消乐】手撕分布式协议和算法（基础篇）

😊你好，我是小航，一个正在变秃、变强的文艺倾年。🔔本专栏《八股消消乐》旨在记录个人所背的八股文，包括等相关知识点，期待与你一同探索、学习、进步，一起卷起来叭！

2025-10-11 22:46:54 1070 2

原创【八股消消乐】品读Redis过期时间机制设计

熟悉Redis过期时间机制，如控制删除开销、定期删除的频率、从库处理过期Key以及持久化处理过期Key。针对xx业务重试机制调整缓存过期时间，缓存命中率基本上没有变化，Redis开销降低了30%。针对用户列表检索业务，设计缓存预加载与超短过期方案，提升了缓存命中率。🚩面试问：- 你有没有遇到过动态确定过期时间的场景？比如说根据请求特征、计算时间、重要性、优先级等，为同一个业务场景的不同请求设置不同的过期时间。- 你有没有用过本地缓存？你知道它是如何删除过期 key 的吗？

2025-07-15 13:54:22 1074

原创【八股消消乐】Kafka集群 full GC 解决方案

🔍简历内容：为解决xx业务高峰期响应时间长、客户端超时问题，通过优化acks、批次并将压缩算法从 Snappy 更换为 LZ4，提高生产者发送效率。经排查，kafka 集群触发了 full GC 之后，停顿时间就会很长，导致 Kafka 吞吐量显著下降，有时候还会导致 Kafka 认为主分区已经崩溃触发主从选举，通过调大 JVM 的堆，并且在堆很大的情况下，启用 G1 垃圾回收器解决了问题。

2025-07-12 21:50:33 1373

原创【八股消消乐】浅尝Kafka性能优化

🔍简历内容：熟悉Kafka消息队列原理及常见优化手段，如分段与索引、零拷贝、Page Cache、顺序写、分区、批量处理、压缩等。🚩面试问：Kafka 用到的这些优化技术，很多中间件也用到了，你能举几个例子吗？

2025-07-11 15:18:37 1047

原创【八股消消乐】手写一个简易消息队列

- Kafka 为什么要引入 topic？- Kafka 为什么要引入分区？只有 topic 行不行？- Kafka 为什么要强调把 topic 的分区分散在不同的 broker 上？- Kafka 为什么要引入消费者组概念？只有消费者行不行？

2025-07-10 15:48:56 1507

原创【八股消消乐】消息队列优化—重复消费

🔍简历内容：熟悉布隆过滤器基本原理，利用布隆过滤器、Redis、唯一索引实现xx业务幂等，避免重复消费。🚩面试问：如果你的流量中，几乎不存在重复请求，比如说重复请求占比不到 1%，如何设计方案。

2025-06-30 13:45:14 824

原创【八股消消乐】消息队列优化—消息丢失

🔍简历内容：熟悉Kafka写入语义、ISR、OSR、unclean选举基本原理。自主实现Kafka回查中间件并开源，利用分区表保证回查机制的高性能和高可用，基于哈希计算实现消息有序，最终实现消息回查机制，解决了xx业务消息丢失问题。🚩面试问：- 在支持 Kafka 回查机制中，要是回查中间件把消息转发到业务 topic 了，但是标记成已发送失败，会发生什么？- 在支持 Kafka 回查机制中，你可以考虑把关系型数据库换成 Redis，这样换的话有什么优缺点？

2025-06-29 19:20:27 1225

原创【八股消消乐】消息队列优化—消息积压

🔍简历内容：熟悉消息积压解决方案。针对xx业务（生产者按照用户输入的参数来查找符合条件的数据，然后一条条处理）增长出现的消息积压问题，通过改造生产者、消费者逻辑，实现聚合消息及批量操作，解决了消息积压问题，并消减了两个消费者，节省了资源。对于批量消费，又采用了异步处理方式来提升效率，通过工作线程重试机制，并将消费失败的消息丢回消息队列避免了消息丢失问题。🚩面试问：有些人认为，优化生产者性能也能解决消息积压，你觉得能还是不能？为什么？在出现消息积压的时候，能不能在生产者发送的时候加个限流？毕竟，

2025-06-27 14:30:46 1041

原创【八股消消乐】消息队列优化—消息有序

💬技术栈：RocketMQ、Kafka、RabbitMQ🔍简历内容：熟悉Kafka消息分区。为解决Kafka线上消息积压、broker性能抖动问题，针对业务内有序为topic实现了多分区。参考Redis槽与槽分配机制解决了数据不均匀问题。针对分区扩容采用了停顿方案解决消息失序问题。🚩面试问：你觉得在多分区方案里面，如果某个分区消息积压了就启用异步消费，这种解决思路你觉得怎么样？🔨复盘：单分区、异步消费、多分区（数据不均匀、消息失序）。

2025-06-25 11:50:10 954

原创【八股消消乐】消息队列优化—延迟消息

🔍简历内容：熟悉延迟队列，基于MySQL自主实现Kafka延迟消息功能，并实现消息的有序性。🚩面试问：如何实现不同 topic 设置不同延迟时间，topic 的分区该怎么设置？延迟消费者又该怎么办？🔨复盘：定时任务调度、分区设置不同延迟时间、基于MySQL实现、批量操作

2025-06-24 14:40:47 1076

原创【八股消消乐】消息队列优化—系统架构设计

为什么要用消息队列？【其实就是再问**在这个业务场景下，不异步、不解耦或者不削峰会有什么问题**？】答案：如果不用消息队列，**性能差、扩展性差、可用性差**。【同步调用的缺点】性能差：业务方必须停下来等待结果，如果我这里需要通知三个下游，那么就需要发起三次调用，并且等它们各自的结果返回之后才能继续往下执行，或者返回响应，这样性能太差了。

2025-06-23 13:54:00 1355

空空如也

空空如也