2020年12月_Ton10

原创强化学习之policy-based方法REFORCEMENT实现（PyTorch）

强化学习可以根据是否直接输出动作分为value-based和policy-based方法。前者根据预测和控制求出最优值函数（V或Q），然后通常取贪心策略来得出最优动作，后者直接一些，他直接输出动作，即policy-based。value-based已经比较不错，但是仍需学习policy-based原因有三点：①：value-based无法很好解决连续动作的RL问题，比如行车，机械臂控制等。②：value-based方法常因观测受限而无法求出最优解。③：value-based无法解决需要输出随

2020-12-26 20:25:50 1954 5

原创强化学习课程笔记之value-based方法

之前看过2遍西瓜书的强化学习部分，尽管看了2遍，但是你问我看懂了什么，我还是一头雾水。发现一个问题，你给了Q-learning或者DQN的伪代码，去做一个实战，确实可以复现，但是就是对背后的原理理解的很模糊。后来又去网上找了一些资料，比如知乎上这个博主对DQN的理解，看了之后对于DRL理解更进一步了，但还是有一些不理解的地方，因此后来我决定重新再来，去找李宏毅老师的DRL课程从头开始学，接下来是我的笔记部分。Part 1：RL基础部分...

2020-12-24 14:19:00 10258 16

原创强化学习之DQN进阶的三大法宝（Pytorch）

三大法宝：①：DDQN：改变Nature DQN中TD目标值中a'的产生方式。②：Prioritizedexperiencereply：改变从经验池采样的方式。③：Dueling DQN：改变网络结构本文将通过理论+实战结合的方式总结DQN与三大法宝的功能。为了阐述清楚三种方式的各自优势：实战部分不选用NIPS DQN作为基础网络，而是用Nature DQN（后面简称DQN）。在DQN的基础上分别加上三大法宝，采用控制变量法，在同一个实验环境：Gym的MountainCar...

2020-12-21 12:21:05 8565 6

原创强化学习之基于gym环境的DQN算法实战（Pytorch）

DQN算法是强化学习与深度学习结合的开端，其利用深度网络来拟合值函数，利用Q-leraning算法进行强化学习。DL为Agent提供学习的大脑，RL提供了计算机制，从而达到真的AI。之前有写过利用DQN算法去解决Cartpole任务和Mountaincar任务，具体可见强化学习之DQN算法实战（Pytorch）：https://blog.csdn.net/MR_kdcon/article/details/109699297上述的任务用的都是gym自带的环境，本文将参考经典环境Puckworld家用g

2020-12-08 20:46:16 9694 13

原创强化学习之Q-learning与Sarsa算法解决悬崖寻路问题

之前有写过利用Q-learning算法去解决->一维二维探宝游戏：https://blog.csdn.net/MR_kdcon/article/details/109612413有风格子寻路游戏：https://blog.csdn.net/MR_kdcon/article/details/110600819理论与实践都证明：Q-learning对于解决状态有限、离散的RL任务有着不错的收敛效果。Q-learning是off-policy算法，意思是其行为策略与目标策略是独立的，根据这个特点

2020-12-05 11:13:10 6123 2

原创强化学习之Q-learning算法实战2

之前用Q-learning算法实现了一维和二维空间的探宝游戏，取得了不错的效果，证明了Q-learning算法对于状态不大的或离散状态下的RL问题有较好的收敛效果，为了强化对Q-learning的认识，本次我将继续实现以一个比较有趣的、经典的、更有难度的RL问题。对于迷宫探宝游戏，有兴趣的可以看看：https://blog.csdn.net/MR_kdcon/article/details/109612413实战内容：10*7有风格子寻路问题所需环境：pycharm所需额外包..

2020-12-04 01:07:07 2905 6

Ton的博客

原创强化学习之policy-based方法REFORCEMENT实现（PyTorch）

原创强化学习课程笔记之value-based方法

原创强化学习之DQN进阶的三大法宝（Pytorch）

原创强化学习之基于gym环境的DQN算法实战（Pytorch）

原创强化学习之Q-learning与Sarsa算法解决悬崖寻路问题

原创强化学习之Q-learning算法实战2

空空如也

空空如也

原创 强化学习之policy-based方法REFORCEMENT实现（PyTorch）

原创 强化学习课程笔记之value-based方法

原创 强化学习之DQN进阶的三大法宝（Pytorch）

原创 强化学习之基于gym环境的DQN算法实战（Pytorch）

原创 强化学习之Q-learning与Sarsa算法解决悬崖寻路问题

原创 强化学习之Q-learning算法实战2

空空如也

空空如也

原创强化学习之policy-based方法REFORCEMENT实现（PyTorch）

原创强化学习课程笔记之value-based方法

原创强化学习之DQN进阶的三大法宝（Pytorch）

原创强化学习之基于gym环境的DQN算法实战（Pytorch）

原创强化学习之Q-learning与Sarsa算法解决悬崖寻路问题

原创强化学习之Q-learning算法实战2