算法的trick_从代码到论文理解并复现TD3算法(基于百度飞桨PaddlePaddle的强化学习套件PARL)...

听了美貌与智慧集于一身的科科老师的课《强化学习7日打卡营学习》之后, 意犹未尽。之前的心得可以点击 thunder95:强化学习7日打卡营学习心得。

这篇心得主要是复习科科老师的上课内容,尤其是DDPG,并在其基础上阅读比理解了td3论文: Addressing Function Approximation Error in Actor-Critic Methods

跑通了paddle PARL官方提供的代码,难度主要是mujoco环境的安装,最终效果能达到论文的评估结果。

最后根据上次大佬的作业, 将其DDPG的代码改成了TD3, 效果肯定没有大佬训练的好,后期还要继续优化。

所有的代码和gif动图都已经贴上了, 也可以参考我的

github: https://github.com/thunder95/PARL/tree/master/td3_mujoco

或者我的百度AIstudio项目, Baidu AI Studio - 人工智能学习与实训社区

运行本项目需要在本地先装好mujoco环境,我的操作如下:

先从官网下载mujoco, 需要申请30天试用许可证

下载包并解压到~/.mujoco/mujoco200, mjkey.txt放在~/.mujoco
导入包可能报错,需要先安装opengl,还遇到了写ubuntu的坑是自己的环境问题

安装python的包:

git clone https://gitee.com/zhangweiyi258/mujoco-py.gitcd
cd work/mujoco-py/ && python setup.py install

A. 先复习下科科老师课程

强化学习两大类别: 基于价值(value-based)具体的算法有(确定性策略):Sarsa、DQN、Q-learning;基于策略(policy-based),具体的算法有(随机性策略):policy-gradient。基于价值会向固定方向走,基于策略随机性更高一些。value-based产生Q网络、优化Q网络,间接确定策略。输出的是确定策略。policy-base 神经网络拟合policy直接输出动作概率,采样随机输出动作

MDP: 状态,动作,奖励,以及状态转移概率。其中Q表格,表示某动作在不同状态下的价值,

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值