算法的trick_从代码到论文理解并复现TD3算法(基于百度飞桨PaddlePaddle的强化学习套件PARL)...

最新推荐文章于 2022-09-05 23:53:45 发布

佚执

最新推荐文章于 2022-09-05 23:53:45 发布

阅读量597

点赞数 1

文章标签：算法的trick

本文链接：https://blog.csdn.net/weixin_34776437/article/details/112516540

版权

听了美貌与智慧集于一身的科科老师的课《强化学习7日打卡营学习》之后，意犹未尽。之前的心得可以点击 thunder95：强化学习7日打卡营学习心得。

这篇心得主要是复习科科老师的上课内容，尤其是DDPG，并在其基础上阅读比理解了td3论文: Addressing Function Approximation Error in Actor-Critic Methods

跑通了paddle PARL官方提供的代码，难度主要是mujoco环境的安装，最终效果能达到论文的评估结果。

最后根据上次大佬的作业，将其DDPG的代码改成了TD3，效果肯定没有大佬训练的好，后期还要继续优化。

所有的代码和gif动图都已经贴上了，也可以参考我的

github: https://github.com/thunder95/PARL/tree/master/td3_mujoco

或者我的百度AIstudio项目， Baidu AI Studio - 人工智能学习与实训社区

运行本项目需要在本地先装好mujoco环境，我的操作如下：

先从官网下载mujoco，需要申请30天试用许可证

下载包并解压到~/.mujoco/mujoco200, mjkey.txt放在~/.mujoco
导入包可能报错，需要先安装opengl，还遇到了写ubuntu的坑是自己的环境问题

安装python的包：

git clone https://gitee.com/zhangweiyi258/mujoco-py.gitcd
cd work/mujoco-py/ && python setup.py install

A. 先复习下科科老师课程

强化学习两大类别：基于价值（value-based）具体的算法有（确定性策略）：Sarsa、DQN、Q-learning；基于策略（policy-based），具体的算法有（随机性策略）：policy-gradient。基于价值会向固定方向走，基于策略随机性更高一些。value-based产生Q网络、优化Q网络，间接确定策略。输出的是确定策略。policy-base 神经网络拟合policy直接输出动作概率，采样随机输出动作

MDP: 状态，动作，奖励，以及状态转移概率。其中Q表格，表示某动作在不同状态下的价值，

最低0.47元/天解锁文章

佚执

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
算法的trick_从代码到论文理解并复现TD3算法(基于百度飞桨PaddlePaddle的强化学习套件PARL)...

听了美貌与智慧集于一身的科科老师的课《强化学习7日打卡营学习》之后，意犹未尽。之前的心得可以点击 thunder95：强化学习7日打卡营学习心得。这篇心得主要是复习科科老师的上课内容，尤其是DDPG，并在其基础上阅读比理解了td3论文: Addressing Function Approximation Error in Actor-Critic Methods跑通了paddle PARL官方提...
复制链接

扫一扫