知凡Charles-CSDN博客

原创强化学习实验环境搭建

本文介绍了构建稳定可复现的强化学习开发环境的关键要素。主要内容包括：PyTorch、Gymnasium等核心工具框架的选型建议；针对不同应用场景的硬件配置方案（从入门级到企业级）；虚拟环境管理策略（conda、Docker等方案对比）以及依赖管理最佳实践。特别提供了基于Linux系统的CUDA驱动安装流程示例，强调环境隔离和版本匹配的重要性。全文旨在帮助研究人员和开发者建立规范的强化学习开发环境，确保实验结果的可靠性和可复现性。

2025-09-18 10:09:12 1033

原创强化学习基础概念（二）

本文系统介绍了强化学习的核心方法，包括值函数方法和策略优化方法。主要内容涵盖：1）Q-learning（离策略）与SARSA（在策略）的对比，分析ε-贪心策略在探索与利用间的平衡；2）策略梯度方法（REINFORCE）的推导与实现，讨论基线技巧降低方差的作用；3）Actor-Critic框架，结合值函数估计与策略优化的优势，分析多步TD和广义优势估计（GAE）的性能折中；4）函数逼近在深度强化学习中的应用，重点介绍DQN的经验回放和目标网络技巧。通过理论推导和实例计算，展示了各类方法的适用场景与实现要点。

2025-09-16 15:41:50 592

原创强化学习基础概念（一）

摘要：强化学习是一种通过交互和奖励信号学习决策策略的机器学习范式，不同于监督和无监督学习。其核心是马尔可夫决策过程（MDP），涉及状态、动作、转移概率和奖励函数。贝尔曼方程将长期回报分解为即时奖励与未来值的折现，支撑动态规划（DP）方法如策略迭代和价值迭代。然而DP需完整环境模型，面临维度灾难。基于样本的蒙特卡洛（MC）和时序差分（TD）方法克服此限制：MC使用整条轨迹回报，方差大但更新彻底；TD通过单步自举估计实现在线更新，方差小但依赖当前值估计的偏差。两者各有优劣，适用于不同场景，而深度强化学习进一步扩

2025-09-12 14:31:10 1077