自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 强化学习实验环境搭建

本文介绍了构建稳定可复现的强化学习开发环境的关键要素。主要内容包括:PyTorch、Gymnasium等核心工具框架的选型建议;针对不同应用场景的硬件配置方案(从入门级到企业级);虚拟环境管理策略(conda、Docker等方案对比)以及依赖管理最佳实践。特别提供了基于Linux系统的CUDA驱动安装流程示例,强调环境隔离和版本匹配的重要性。全文旨在帮助研究人员和开发者建立规范的强化学习开发环境,确保实验结果的可靠性和可复现性。

2025-09-18 10:09:12 1033

原创 强化学习基础概念(二)

本文系统介绍了强化学习的核心方法,包括值函数方法和策略优化方法。主要内容涵盖:1)Q-learning(离策略)与SARSA(在策略)的对比,分析ε-贪心策略在探索与利用间的平衡;2)策略梯度方法(REINFORCE)的推导与实现,讨论基线技巧降低方差的作用;3)Actor-Critic框架,结合值函数估计与策略优化的优势,分析多步TD和广义优势估计(GAE)的性能折中;4)函数逼近在深度强化学习中的应用,重点介绍DQN的经验回放和目标网络技巧。通过理论推导和实例计算,展示了各类方法的适用场景与实现要点。

2025-09-16 15:41:50 592

原创 强化学习基础概念(一)

摘要:强化学习是一种通过交互和奖励信号学习决策策略的机器学习范式,不同于监督和无监督学习。其核心是马尔可夫决策过程(MDP),涉及状态、动作、转移概率和奖励函数。贝尔曼方程将长期回报分解为即时奖励与未来值的折现,支撑动态规划(DP)方法如策略迭代和价值迭代。然而DP需完整环境模型,面临维度灾难。基于样本的蒙特卡洛(MC)和时序差分(TD)方法克服此限制:MC使用整条轨迹回报,方差大但更新彻底;TD通过单步自举估计实现在线更新,方差小但依赖当前值估计的偏差。两者各有优劣,适用于不同场景,而深度强化学习进一步扩

2025-09-12 14:31:10 1077

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除