强化学习
文章平均质量分 89
分享各种有关强化学习方面的学习心得
None072
机械 嵌入式 机器学习 独立游戏开发 欢迎交流
展开
-
【深度强化学习】【论文阅读】【双臂模仿】Deep Imitation Learning for BimanualRobotic Manipulation
翻译并介绍 Deep Imitation Learning for BimanualRobotic Manipulation原创 2023-01-19 18:54:53 · 1820 阅读 · 2 评论 -
【RL】使用强化学习的一些建议
强化学习教程资源:https://stable-baselines3.readthedocs.io/en/master/guide/rl.htmlSB3教程:https://github.com/araffin/rl-tutorial-jnrr19/blob/sb3/1_getting_started.ipynb与有固定数据集的监督学习相比,强化学习用来训练智能体的数据来自于智能体与环境的交互。由于强化学习每次得到的结果不一致,这就需要我们去取得一个量化的结果。好的结果依赖于恰当的超参数,像PPO、SAC、翻译 2022-12-06 17:43:44 · 668 阅读 · 0 评论 -
【强化学习】《Easy RL》- Q-learning - CliffWalking(悬崖行走)代码解读
本篇博客的代码来源于蘑菇书《Easy RL》Q学习部分的悬崖行走实战部分,本人在学习的同时对代码进行完整的解读,如有错误之处,烦请指正。task0.py首先学习 task0 部分。原创 2022-08-08 09:52:12 · 2633 阅读 · 4 评论 -
【RL】Markov decision process马尔可夫决策过程(MDP)-下
参考:蘑菇书-《EasyRL》推荐直接阅读蘑菇书本文只是为了方便自己今后的查阅对原文做出的一些概括与摘录,与大家共同学习。原创 2022-05-05 19:09:29 · 723 阅读 · 0 评论 -
【RL】Markov decision process马尔可夫决策过程(MDP)
参考:蘑菇书-《EasyRL》本文只是为了方便自己今后的查阅对原文做出的一些概括。原创 2022-05-02 21:04:49 · 1562 阅读 · 0 评论 -
【RL】Bellman Equation 贝尔曼方程(动态规划)
参考:蘑菇书-《EasyRL》方程贝尔曼方程表示了当前状态与未来状态的迭代关系,也称为动态规划方程,公式如下:参数解释:s′:未来的所有状态;s:当前状态;R(s):当前状态所获得的奖励;γ:折扣因子,用来折扣未来的奖励;V(s′):未来某一状态的价值;p:从当前状态到未来某一状态的概率。解法可以把贝尔曼方程写成矩阵的形式,通过矩阵运算求解,但状态很多的话很难求解,只适用于很小量的马尔可夫奖励过程(MRP)。对于状态很多的马尔可夫奖励过程,使用迭代的方法,例如:动态规划方法,.原创 2022-05-01 15:41:53 · 2696 阅读 · 0 评论