自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Ton的博客

深度强化学习

  • 博客(6)
  • 收藏
  • 关注

原创 强化学习之policy-based方法REFORCEMENT实现(PyTorch)

强化学习可以根据是否直接输出动作分为value-based和policy-based方法。前者根据预测和控制求出最优值函数(V或Q),然后通常取贪心策略来得出最优动作,后者直接一些,他直接输出动作,即policy-based。value-based已经比较不错,但是仍需学习policy-based原因有三点:①:value-based无法很好解决连续动作的RL问题,比如行车,机械臂控制等。②:value-based方法常因观测受限而无法求出最优解。③:value-based无法解决需要输出随

2020-12-26 20:25:50 1954 5

原创 强化学习课程笔记之value-based方法

之前看过2遍西瓜书的强化学习部分,尽管看了2遍,但是你问我看懂了什么,我还是一头雾水。发现一个问题,你给了Q-learning或者DQN的伪代码,去做一个实战,确实可以复现,但是就是对背后的原理理解的很模糊。后来又去网上找了一些资料,比如知乎上这个博主对DQN的理解,看了之后对于DRL理解更进一步了,但还是有一些不理解的地方,因此后来我决定重新再来,去找李宏毅老师的DRL课程从头开始学,接下来是我的笔记部分。Part 1:RL基础部分...

2020-12-24 14:19:00 10258 16

原创 强化学习之DQN进阶的三大法宝(Pytorch)

三大法宝:①:DDQN:改变Nature DQN中TD目标值中a'的产生方式。②:Prioritizedexperiencereply:改变从经验池采样的方式。③:Dueling DQN:改变网络结构本文将通过理论+实战结合的方式总结DQN与三大法宝的功能。为了阐述清楚三种方式的各自优势:实战部分不选用NIPS DQN作为基础网络,而是用Nature DQN(后面简称DQN)。在DQN的基础上分别加上三大法宝,采用控制变量法,在同一个实验环境:Gym的MountainCar...

2020-12-21 12:21:05 8565 6

原创 强化学习之基于gym环境的DQN算法实战(Pytorch)

DQN算法是强化学习与深度学习结合的开端,其利用深度网络来拟合值函数,利用Q-leraning算法进行强化学习。DL为Agent提供学习的大脑,RL提供了计算机制,从而达到真的AI。之前有写过利用DQN算法去解决Cartpole任务和Mountaincar任务,具体可见强化学习之DQN算法实战(Pytorch):https://blog.csdn.net/MR_kdcon/article/details/109699297上述的任务用的都是gym自带的环境,本文将参考经典环境Puckworld家用g

2020-12-08 20:46:16 9694 13

原创 强化学习之Q-learning与Sarsa算法解决悬崖寻路问题

之前有写过利用Q-learning算法去解决->一维二维探宝游戏:https://blog.csdn.net/MR_kdcon/article/details/109612413有风格子寻路游戏:https://blog.csdn.net/MR_kdcon/article/details/110600819理论与实践都证明:Q-learning对于解决状态有限、离散的RL任务有着不错的收敛效果。Q-learning是off-policy算法,意思是其行为策略与目标策略是独立的,根据这个特点

2020-12-05 11:13:10 6123 2

原创 强化学习之Q-learning算法实战2

之前用Q-learning算法实现了一维和二维空间的探宝游戏,取得了不错的效果,证明了Q-learning算法对于状态不大的或离散状态下的RL问题有较好的收敛效果,为了强化对Q-learning的认识,本次我将继续实现以一个比较有趣的、经典的、更有难度的RL问题。对于迷宫探宝游戏,有兴趣的可以看看:https://blog.csdn.net/MR_kdcon/article/details/109612413实战内容:10*7有风格子寻路问题所需环境:pycharm所需额外包..

2020-12-04 01:07:07 2905 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除