强化学习
文章平均质量分 95
小帅吖
无
展开
-
PPO算法实现的37个实现细节(3/3)9 details for continuous action domains
博客标题:The 37 Implementation Details of Proximal Policy作者:Huang, Shengyi;本文接上篇继续,本篇主要介绍与Mujoco类型的环境的场景下,实现PPO算法的9个实现细节。翻译 2023-10-27 16:56:22 · 317 阅读 · 0 评论 -
PPO算法实现的37个实现细节(2/3)9 Atari-specific implementation details
博客标题:The 37 Implementation Details of Proximal Policy作者:Huang, Shengyi;本文接上篇继续,本篇主要介绍与Atari类型的游戏环境的场景下,实现PPO算法的9个实现细节。翻译 2023-10-26 10:57:24 · 239 阅读 · 0 评论 -
PPO算法实现的37个实现细节(1/3)13 core implementation details
翻译PPO算法实现的37个细节博客,原文标题The 37 Implementation Details of Proximal Policy Optimization。翻译 2023-10-25 22:03:52 · 502 阅读 · 0 评论 -
PPO算法逐行代码详解
本文会从理论部分、代码部分、实践部分三方面进行PPO算法的介绍。其中理论部分会介绍PPO算法的推导流程,代码部分会给出PPO算法的各部分的代码以及简略介绍,实践部分则会通过debug代码调试的方式从头到尾的带大家看清楚应用PPO算法在cartpole环境上进行训练的整体流程,进而帮助大家将理论与代码实践相结合,更好的理解PPO算法。原创 2023-10-12 17:42:57 · 1577 阅读 · 3 评论 -
基于深度强化学习的机器人运动控制研究进展 | 无模型强化学习 | 元学习
1.基于深度强化学习的机器人运动控制研究进展1.1 深度强化学习1.1.1 强化学习简介:强化学习(Reinforcement Learning, RL)利用试错机制与环境进行交互,旨在通过最大化累积延迟奖励(Return)的方式来学习到最优策略。强化学习本质上是通过参数化的函数逼近 “状态-动作”的映射关系,以求解MDP的最优策略。1.1.2 为什么要将深度学习引入强化学习?强化学习受自身结构与学习能力的约束,多以解决低维问题为主,在处理高维连续状态-动作空间下的控制问题时,难以有效求解,且无法原创 2021-11-04 18:27:14 · 5966 阅读 · 2 评论 -
强化学习简介
莫凡----强化学习----学习笔记1.什么是强化学习?监督学习已有数据和标签,但是强化学习需要一次次在环境中尝试来获取数据和标签,然后学习哪些数据对应哪些标签。包含算法分类* 通过价值选行为:Q learning , Sarsa , Deep Q Network* 直接选行为:Policy Gradients* 想象环境并从中学习:Model based RL根据Model-Free RL(不理解环境)和Model-Based RL(理解环境)分类 前者从真实环境中得到原创 2021-10-26 22:46:45 · 292 阅读 · 0 评论