- 博客(134)
- 收藏
- 关注
原创 verl 大模型强化学习后训练入门:Qwen2.5-0.5B - GSM8K
本文深度解析了大模型强化学习框架 verl 的使用细节,以 Qwen2.5-0.5B 模型和 GSM8K 数学推理数据集为例,提供了一份完整的 Post-Training(后训练)实战教程,分为五个部分:1. 环境配置,详细记录了 FlashAttention 和 vLLM 的手动安装避坑指南。2. 数据和模型下载准备3. 训练命令参数解析4. verl_demo.log 训练日志解析5. Checkpoint 断点续训与模型验证
2026-02-06 15:01:31
735
原创 离线强化学习(一)BCQ 批量限制 Q-learning
离线强化学习开篇之作 BCQ,针对离线场景外推泛化误差问题,通过生成 + 扰动的批次约束策略。BCQ 以 CVAE 为生成模型拟合批次数据分布、Actor 为扰动模型做局部动作优化、双 Q 网络实现无偏价值评估,三者协同让策略仅访问与缓冲区 Buffer 相似的(s,a)对,有效规避分布外数据误差。同时详解算法代码实现细节,包括 VAE、Actor、Critic 的网络设计与训练流程。
2026-01-28 23:45:31
648
原创 PPO(Proximal Policy Optimization) 近端策略优化
本文深入解析近端策略优化(PPO)算法的核心原理与工程实现:从背景出发,对比策略梯度、TRPO 的局限性,阐明 PPO 通过带概率比截断的代理目标函数,在样本效率、实现复杂度与计算耗时间实现平衡;拆解 GAE 优势估计等关键模块,并给出 agent 代码架构。并以 Walker2d-v5 连续动作环境为例,提供基于 Stable Baselines3 的完整实现。
2026-01-26 19:27:18
750
原创 Soft Actor-Critic(加熵自动平衡探索与利用 对DDPG的优化)
本文聚焦无模型深度强化学习(Model-free DRL)在连续控制场景中的核心痛点 —— 在策略算法样本复杂度高、离策略算法收敛不稳定,详解软演员 - 评论家(SAC)算法的原理与实践。SAC 核心创新是让策略在最大化期望奖励的同时最大化熵,结合离策略更新与随机 Actor-Critic 架构,兼顾样本效率与训练稳定性。文中拆解软策略迭代理论基础,推导 Q 函数、策略网络及熵正则项(自动调整 α)的损失函数,重参数化采样的可导设计与双 Q 函数缓解过估计的技巧。
2026-01-26 00:09:47
654
原创 TD3 双延迟深度确定性策略梯度(对 Actor-Critic DDPG 高估和方差的改进)
TD3(双延迟深度确定性策略梯度)是针对 DDPG 在 Actor-Critic 架构中存在的过估计偏差与高方差问题提出的优化算法。其核心围绕价值高估与方差膨胀两大痛点,借鉴双 Q 学习思想设计截断式双 Q 机制,通过双评论家网络取最小值抑制高估;搭配目标网络、延迟策略更新、动作扰动平滑三大方差削减策略,稳定训练过程。算法采用 “单演员 + 双评论家” 及对应目标网络的架构,以低成本实现连续控制任务中学习速度与性能的双重提升,有效解决了 DDPG 训练震荡、误差累积的缺陷。
2026-01-22 17:31:42
630
原创 力扣每日一题 2026.1
本文整理了多类经典算法的核心思路与应用技巧,涵盖二分答案、并查集、BFS/DFS、动态规划、单调栈等高频考点。结合实际问题,拆解算法本质,分享反向思维、二维转一维等解题妙招,助力提升算法分析与问题求解能力。
2026-01-19 13:42:32
699
原创 动手学深度学习 - NLP 词嵌入全解析:从 Word2Vec/GloVe 到 FastText/BPE 与 BERT
本文系统介绍了NLP中的词嵌入技术发展历程。首先讲解了Word2Vec的Skip-Gram和CBOW模型原理及其在中文文本的应用;然后介绍了融合全局统计的GloVe模型,并给出代码实践;针对传统词嵌入的缺陷,分析了FastText子词嵌入和BPE字节对编码的优势;最后重点阐述了上下文敏感的预训练模型BERT,包括其双向编码特性、输入表示方法以及中文分词器的具体使用方法。通过从静态词嵌入到动态上下文嵌入的技术演进,展现了NLP词向量表示的发展全貌。
2026-01-16 21:47:32
754
原创 动手学强化学习上交张伟楠(二)马尔科夫决策 + 策略迭代 + 价值迭代(tabular 表格式动态规划)
马尔可夫决策过程(MDP)核心知识,从马尔可夫性、马尔可夫链等基础概念切入,详解 Bellman 方程、状态 / 动作价值函数及占用度量原理。重点围绕最优策略求解,展开策略迭代与价值迭代两种核心算法的理论逻辑,包括策略评估、策略提升的核心步骤。结合悬崖漫步环境,Python 实现代码,对比两种算法的适用场景与优劣。
2026-01-14 12:43:54
681
原创 动手学强化学习上交张伟楠(一)导论 + 多臂老虎机 MAB(ε-greedy+上置信界+汤普森采样)
强化学习导论与多臂老虎机(MAB)核心内容。导论部分梳理了价值学习、策略学习及 actor-critic 三种架构,阐述深度强化学习的参数化优势与前沿研究方向;MAB 部分聚焦探索与利用平衡问题,通过伯努利老虎机仿真,详细介绍 ε-greedy(含衰减型)、积极初始化、上置信界(UCB)及汤普森采样四种经典算法的原理、实现与实验验证,为强化学习入门奠定基础。
2026-01-12 15:02:07
973
原创 RL4LLM_Survey 强化学习在大语言模型后训练综述
海量文本语料的预训练及后续的监督微调奠定了LLM核心能力,但强化学习(RL)已逐渐成为优化LLMs不可或缺的范式,尤其在使其与人类价值观对齐、学习推理与遵循复杂指令方面发挥着关键作用。在本综述中,我们从三个关键维度追溯了 rl4llm 的发展脉络。 1. 由LLMs离散、高维特性带来的独特算法挑战,以及为解决这些挑战而发展的专门方法。 2. 使大规模强化学习训练成为可行的计算框架,这些框架推动了相关技术从概念验证迈向实际生产系统。 3. 强化学习究竟是在传授新知识,还是在优化现有知识的表达方式?
2026-01-09 16:51:17
1075
原创 SME-人工智能(六)习题(优化理论 损失函数 梯度下降)
本文聚焦优化理论核心知识点与神经网络参数计算实操内容。优化理论部分,以矩阵求导为基础,推导标签y∈{-1,1}场景下逻辑回归损失函数,通过Hessian矩阵证明损失函数凸性,还深入探讨强凸函数特性、log-sum-exp函数性质及梯度下降(GD)的线搜索特性与收敛性;神经网络部分,详细讲解MLP与CNN的参数计算逻辑,包含单/多卷积层输出维度求解、池化对维度的影响等,为相关领域的理论学习与实践应用提供系统参考。
2026-01-04 01:01:36
750
原创 强化学习 -- 无导数随机优化算法玩俄罗斯方块Tetris(交叉熵方法CE + ADP近似动态规划CBMPI)
本文综述了一种基于近似动态规划的俄罗斯方块求解算法 CBMPI。针对传统 ADP 依赖值函数近似导致性能受限的问题,该算法创新性转向策略空间搜索,通过 “采样 - 回归器 - 分类器” 三步流程实现策略优化:基于 m 步截断滚动采样估计价值函数,利用最小二乘拟合回归器近似值函数,借助 CMA-ES 优化分类器得到近似贪婪策略。实验表明,在 20×10 大型棋盘上,CBMPI 平均消除 5100 万行,首次使 ADP 类算法性能超越交叉熵(CE)方法,且样本用量仅为 CE 的 1/6,突破了传统ADP的局限性
2026-01-01 17:22:45
866
原创 SME-人工智能(五)Kmeans + PCA 实验&习题
本文围绕Kmeans聚类与PCA降维展开实践讲解,涵盖Kmeans手搓实现与scikit-learn两种接口调用,结合模拟数据可视化演示聚类过程;引入肘部法则确定最优簇数、轮廓图评估聚类质量,强调标准化对聚类结果的重要性。同时详解PCA降维的原理、手搓实现与sklearn调用,分析标准化对PCA的影响,并附相关例题深化理论理解,为聚类与降维实践提供完整指导。
2025-12-29 15:32:42
816
原创 NJU-SME 人工智能(四)深度学习(架构+初始化+过拟合+CNN)
本文系统梳理深度学习核心知识点,涵盖前馈神经网络基础、通用近似定理,深入解析深度学习优化难点与良好性质,详解参数初始化(Xavier/He)、过拟合防治(权重衰减/ Dropout等)关键方法,结合CNN原理与PyTorch实操案例,搭建从理论到实践的完整知识框架,助力理解深度学习模型训练的核心逻辑与实操要点。
2025-12-28 23:32:25
665
1
原创 SME-人工智能(四)优化补充(优化问题扩展 - 分布式学习 - 预测&优化结合)
机器学习优化问题的前沿拓展与应用场景。首先从经典最小化问题过渡到对抗环境下的Minimax优化,以GAN和对抗性机器学习为例,分析了梯度下降/上升(GDA)的局限性。接着介绍了元学习中的多任务知识迁移框架,以及分布式与联邦学习中面临的数据隐私、异质性和通信挑战。文章还详细梳理了大规模训练中的并行化策略。最后,聚焦于预测-优化结合问题,对比了传统两步法(ETO)与端到端联合优化(IEO)的优劣,并引入SPO损失等先进方法以弥合预测误差与决策效果间的差距。
2025-12-24 11:55:22
836
原创 深度强化学习 TRPO 置信域策略优化实验(sb3_contrib / 手搓 + CartPole-v1 / Breakout-v5)
本文深入解析了TRPO(Trust Region Policy Optimization)算法的核心实现,并展示其在经典控制任务CartPole-v1和Atari游戏Breakout-v5上的应用。文章首先详细推导了广义优势估计(GAE),阐释了其通过λ值平衡偏差与方差的原理。随后重点拆解了TRPO策略网络更新的关键步骤,包括构建代理目标函数、计算Fisher信息矩阵与共轭梯度求解优化方向,以及使用回溯线搜索确定最优步长。实验部分使用stable-baselines3库和手写TRPO代码进行验证。
2025-12-17 20:53:37
662
原创 TRPO 置信域策略优化(论文推导详解)
置信域策略优化(TRPO)通过限制策略更新的幅度,确保每次迭代都能稳定提升性能,解决了传统策略梯度方法训练不稳定、学习率敏感等问题。其核心思想是在旧策略的邻域内寻找新策略,最大化替代目标函数,同时约束新旧策略的KL散度以避免更新过大。TRPO利用理论推导的性能下界保证单调改进,并通过近似求解和采样技术(如藤蔓法)降低方差,实现高效优化。这一方法在连续控制等复杂任务中表现出更强的鲁棒性和更快的收敛速度。
2025-12-15 10:38:25
949
原创 复杂结构数据挖掘(八)社交网络挖掘:标签传播、社区发现、影响力传播
社交网络挖掘:首先总结社交网络的关键特性,如三元闭包、小世界现象等。其次,详解了衡量节点重要性的中心性与声望指标。随后,重点阐述了社区检测的三大经典算法——Kernighan-Lin算法、Girvan-Newman算法及METIS多级图划分,这些方法旨在发现网络内部紧密连接的群体。接着,文章介绍了利用图结构与节点属性进行分类的迭代分类算法与标签传播方法。最后,探讨了预测未来连接生成的链接预测技术,以及基于线性阈值模型、旨在最大化信息传播范围的社交影响力分析与贪心算法,为理解和利用社交网络提供了全面的理论框架
2025-12-12 11:26:27
1003
原创 python 算法题基础常用总结(比赛 or 机试 or 面试)
Python算法竞赛常用代码模板总结,涵盖输入输出、数据结构、排序、二分、堆、记忆化搜索、位运算、图论和字符串处理等核心内容,适用于编程比赛、机试和面试准备场景。
2025-12-05 22:48:03
379
原创 三篇大模型代码生成优化:探索REx - 反思Reflexion - 调试LDB
大语言模型(LLM)在代码生成领域展现出显著潜力,但单次生成难以满足复杂任务的测试用例覆盖要求,且传统优化策略常陷入局部最优或资源浪费困境。本文将系统解析这三类代表性工作的核心机制:从 REx 引入多臂老虎机的 “探索 - 利用” 权衡机制优化迭代方向,到 Reflexion 以 “语言记忆” 构建反思式强化学习范式实现经验复用,再到 LDB 借鉴人类调试逻辑,通过跟踪运行时中间状态定位代码缺陷。
2025-12-04 15:09:08
906
原创 南京大学 LLM 开发基础(七)RAG 检索增强生成
RAG(检索增强生成)通过结合外部知识检索与大模型生成能力,显著提升了专业问答的准确性和时效性。其核心流程包括:索引构建(数据清洗、向量化)、文本拆分(固定大小重叠切割)、向量检索(余弦相似度匹配),以及提示词增强生成。相比传统大模型,RAG有效缓解了幻觉问题、上下文长度限制和知识更新滞后等弊端,同时避免了昂贵且易过拟合的微调过程。实现时可通过Haystack或LangChain等框架,构建“检索-提示-生成”的端到端管道,将外部知识(如维基百科)动态引入生成过程,从而提供更可靠、可追溯的专业答案。
2025-12-03 15:47:32
803
原创 力扣每日一题(11.10-11.29)0-1 和 k 整除系列
力扣2025.11下旬的每日一题思路合集,算法关于(树上问题,单调栈,最大公约数,0-1背包,同余前缀和)
2025-12-01 10:20:56
731
原创 ToT与ReAct:突破大模型推理能力瓶颈
当前,大语言模型的核心瓶颈已从“知识储备”转向“推理能力”。Tree-of-Thoughts (ToT) 与 ReAct 框架代表了突破此瓶颈的两种革命性路径。ToT 通过模拟人类“三思而后行”的决策过程,将线性推理链拓展为树状结构,引入了生成多种思路、评估其前景、并通过搜索算法进行前瞻与回溯的机制,从而在数学推理、创意写作等需要战略规划的任务中取得质的飞跃。 ReAct 则通过交织“推理”与“行动”步骤,构建了一个与环境交互的闭环:模型通过推理决定行动,通过行动获取外部观察,再基于新观察进行下一步推理。
2025-11-28 20:38:33
851
原创 大模型 Coding-for-Reasoning 代码赋能推理(PAL + PaD + CSV)
大语言模型在常识推理中表现出色,却在复杂的数学与逻辑问题上频频“失手”。它们善于分解问题,却常在精确计算和推导上犯错。为了攻克这一瓶颈,“代码辅助推理” 范式应运而生,它将大模型的规划能力与程序解释器的精确性相结合,开启了AI推理的新篇章。本文系统梳理了这一领域的三大经典工作:PAL 开创了“模型写代码,解释器做计算”的分工模式;PaD 通过程序蒸馏,将强大的推理能力高效迁移至小模型;CSV 则引入了自验证机制,让模型能够像人类一样检查并修正自己的解题过程。见证代码如何一步步成为大模型可靠的“理性大脑”
2025-11-28 11:53:05
968
原创 从Node2Vec到Graph Transformer:图数据表征学习演进之路
图表征学习将复杂的图结构数据转化为低维向量,是支撑节点分类、链路预测等任务的关键。其发展脉络清晰:从Node2Vec借鉴Word2Vec,通过随机游走捕捉网络关系;到GCN和GraphSAGE引入卷积与邻域聚合,实现高效消息传递与归纳学习;最终演进至GAT和Graph Transformer,利用注意力机制动态加权邻居信息,并融合边特征,形成当前最强大的表达框架。
2025-11-27 20:53:17
1165
原创 复杂结构数据挖掘(六)Mining Graph Data 图数据挖掘
图数据作为表示实体间复杂关系的天然模型,其相似性度量是图聚类、分类与检索等任务的核心基础。本文系统综述了图距离计算的关键方法。主要路径分为两类:其一为基于结构的精确匹配,包括子图同构算法(如Ullmann)以及衍生的最大公共子图和图编辑距离,该方法精确但计算复杂度高;其二为基于特征的近似度量,通过提取图拓扑指数或利用图核函数,将图结构转化为数值特征进行高效比较。本文分析了各类方法的优劣与适用场景,为在不同需求下选择合适的图相似性度量技术提供了清晰指引。
2025-11-27 17:49:39
632
原创 复杂结构数据挖掘(五) -- 文本数据 + 网页数据
本文围绕文本与网页数据挖掘展开,核心涵盖文档聚类、话题建模及网页检索三大模块。文档聚类针对文本高维稀疏特性,经预处理后采用 k-means 等算法,协同聚类优化簇间区分度;话题建模通过 LSA、LDA 等模型将文本映射至低维主题空间,提升信息处理精度;网页数据挖掘聚焦检索排序,借助爬虫、PageRank(阻尼系数优化)与 HITS 算法,实现高相关性权威网页筛选,为数据挖掘提供核心方法支撑。
2025-11-25 16:03:58
63
原创 南京大学 LLM 开发基础(六)推理优化 KV Cache + Sparse Attention
文本介绍大语言模型推理优化技术,重点分析四个关键方向。1)推理阶段划分:Prefill阶段处理prompt,Decode阶段自回归生成,讨论了Greedy、Sampling等解码策略及参数调优顺序。2)KVCache机制:分析其线性增长问题及长文本场景的性能瓶颈。3)PageAttention:借鉴OS分页思想,将KVCache分块管理,解决内存碎片和浪费问题。4)SparseAttention:包括静态模式(滑动窗口)、动态模式(MInference)和基于训练的方法(Deepseek工作)
2025-11-19 16:31:48
480
原创 论文阅读 - 深度学习端到端解决库存管理问题 - 有限时间范围内的多周期补货问题(Management Science)
本文论文提出一种端到端深度学习方法,解决多周期随机需求和随机供应商提前期(VLT)的库存补货问题。通过构建神经网络模型直接输出最优补货决策,避免了传统方法对分布假设的依赖和预测-优化两阶段的次优性。
2025-11-18 22:48:57
915
原创 机器学习作业(一)逻辑回归 + 信息熵 + SVM 软间隔 + 核函数
这篇博客深入探讨了机器学习四大理论:逻辑回归:从贝叶斯角度证明了特定分布下的分类器等价于逻辑回归模型。信息熵:分析了熵的等价性,构造决策树划分反例,证明信息增益的非负性。SVM软间隔:对比绝对与相对软间隔,推导对偶问题,揭示其与Hinge Loss的关系。核函数:演示如何求特征映射,通过半正定性判断核函数有效性,证明核函数乘积性质。
2025-11-18 00:15:57
479
原创 王树森深度强化学习 DRL(六)连续控制 DDPG + 随机策略
本文聚焦 深度确定性策略梯度(DDPG) 在连续控制任务(倒立摆)中的理论与实践。对比离散 / 连续动作强化学习差异,并阐释 DDPG 作为 Actor-Critic 框架,通过确定性策略突破连续动作空间局限的核心机制。代码层面,一方面基于 Stable-Baselines3 快速实现 DDPG 训练、测试及可视化;另一方面手动构建 DDPG 核心组件,包括经验回放、Actor/Critic 网络(含正交初始化、软更新)与智能体训练流程,同时追踪奖励及网络损失的收敛过程。
2025-11-12 23:40:41
769
原创 周志华《机器学习导论》第 15 章 规则学习(符号主义学习)
规则学习是通过训练数据生成判别规则的方法,介绍了序贯覆盖,剪枝优化,一阶规则学习。序贯覆盖采用贪心搜索逐步生成规则,使用准确率等指标评估。剪枝优化包括预剪枝(如LRS早停)和后剪枝方法(REP/IREP*/RIPPER)。一阶规则学习(如FOIL)处理关系信息,ILP引入逻辑嵌套,采用最小一般泛化(LGG)和逆归结操作进行规则归纳。这些方法在知识表达和复杂关系建模中具有优势。
2025-11-08 19:11:32
1032
原创 力扣每日一题(三)滑动窗口中位数 + 搜索染色 + 二分答案
本文介绍了几道leetcode算法问题的解决思路。295题使用双堆维护中位数;480题在滑动窗口中用懒删除堆处理元素移除。3607题通过DFS染色和懒删除堆或离线算法处理电网维护问题。1611题利用二进制递归/递推计算整数变为0的最少操作次数。2528题采用二分答案和差分数组优化城市电量分配。417题通过反向BFS搜索处理水流路径问题。这些方法涵盖了堆应用、离线处理、二进制位运算和搜索算法等典型解题技巧。
2025-11-08 13:14:28
897
原创 高级机器学习作业(二)度量学习 + 稀疏学习 + GMM-EM半监督学习
度量学习中马氏距离的性质及协方差矩阵的数学特性。标准马氏距离通过特征变换实现变量去相关和量纲统一,建立了PCA/LDA与马氏距离的联系,并讨论了特征选择中的正则化等价性。在稀疏学习方面,比较了正则化与条件约束的转化,字典学习与压缩感知的异同。最后推导了半监督学习中高斯混合模型的EM参数更新公式。
2025-11-05 17:43:28
963
原创 南京大学 LLM 开发基础(五)大模型训练微调(数据准备 + 目标函数 + 参数设置 + 训练评估和保存)
本文介绍了大语言模型训练流程的关键环节与实现方法。主要内容包括:1)数据准备阶段的数据集清洗、结构化转换和Tokenizer对齐;2)批处理策略中的变长序列补全与DataLoader配置;3)预训练目标函数的自回归交叉熵损失设计;4)训练执行的框架选择、评估指标和模型保存策略;5)LLaMA-Factory微调参数配置实例,包括量化训练、LoRA适配等技术细节。文章通过代码示例详细展示了从数据处理到模型训练的全流程实现方案,为语言模型训练提供了实用指导。
2025-11-05 17:31:32
834
原创 周志华《机器学习导论》第14章 概率图模型
概率图模型通过图结构表示变量间的概率依赖关系,分为有向图(贝叶斯网)和无向图(马尔可夫网)。关键内容包括:1)有向图转无向图需进行"道德化"处理;2)生成式模型(如HMM、MRF)建模联合分布,判别式模型(如CRF)直接建模条件分布;3)HMM基于状态转移,MRF通过极大团定义联合概率;4)CRF利用状态特征和转移特征处理序列标注任务;5)推断方法包括精确推断(变量消去、信念传播)和近似推断(MCMC采样、变分推断);6)LDA作为典型话题模型,通过狄利克雷分布生成文档话题分布。
2025-10-31 08:00:00
882
原创 力扣每日一题(四)线段树 + 树状数组 + 差分
文章摘要:本文介绍了多个算法问题的解法。1. 最少区间增加次数问题,利用差分数组特性,操作次数为差分正数和。2. 水果成篮问题,使用线段树维护篮子容量,快速查找可用篮子。3. 好三元组统计问题,通过映射和树状数组高效计算符合条件的三元组数量。4. 最小栈实现方法,额外维护最小值栈实现O(1)查询。5. 分数调整问题,通过排序和分界枚举寻找最优解。6. 两种道路查询问题,分别利用非交叉特性预处理和动态规划方法求解最短路径。这些解法展示了差分、线段树、树状数组等数据结构在不同场景下的应用。
2025-10-31 00:56:22
591
原创 南京大学LLM开发基础(四)MoE, LoRA, 数的精度 + MLP层实验
本文介绍了两种提升大模型效率的技术:混合专家系统(MoE)和低秩适应(LoRA)。MoE通过门控网络动态选择部分专家进行计算,实现了参数规模与计算效率的平衡,其主要优势包括推理效率提升、参数规模扩大和预训练加速。LoRA通过冻结预训练权重并注入可训练的低秩矩阵,大幅减少微调参数。文章还探讨了混合精度和量化技术对模型训练的优化作用。通过两个实践任务展示了具体实现:Task1在Dense MLP中集成LoRA,Task2构建基于MoE的Sparse MLP,将投影矩阵分片为多个专家并采用门控机制整合输出。
2025-10-29 22:46:05
1211
原创 NJU-SME 人工智能(三) -- 正则化 + 分类 + SVM
本文概述了机器学习中的正则化方法、分类算法(逻辑回归和Softmax)、评估指标、Iris数据集实践以及SVM相关内容。正则化部分介绍次梯度、近端梯度下降等优化方法;分类部分涵盖逻辑回归损失函数、Softmax多分类实现;评估指标详细解释Accuracy、Precision、Recall、F-score及AUC-ROC曲线;Iris实践展示数据加载、模型训练评估和可视化流程;SVM章节包含凸优化基础、对偶问题推导、核函数应用和软间隔实现,最后给出scikit-learn中SVC的参数说明和使用示例。
2025-10-29 13:48:17
945
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅