ReinForcement Learning
赵YN的csdn
这个作者很懒,什么都没留下…
展开
-
Carla安装及运行
入了自动驾驶+DRL的坑了,要求先安装carla进行环境模拟。首先,下载Carla,我是win10系统。国内下carla很慢,我就找了一个百度云资源:链接:https://pan.baidu.com/s/1ioF4V-QcEWP8qpyZyR_kGw提取码:7as5下载完毕后,进入WindowsNoEditor,运行CarlaUE4.exe。如果提示"The following...原创 2020-04-22 14:09:49 · 7686 阅读 · 11 评论 -
random大坑
最近在入门强化学习,在写使用DQN学习CartPole时,出现了一个神奇的事情。我几乎把代码改的和参考程序一模一样了,结果参考程序跑出来完全正常,而我的程序跑出来就是这个鬼样子……就是loss一直在降低,但是reward一直在9左右徘徊,甚至expected average reward稳步下降……因为是python新手入门+深度学习新手入门,所以现在只会照着别人的代码写,自己用眼...原创 2018-07-29 09:26:38 · 805 阅读 · 0 评论 -
强化学习入门——使用DQN训练CartPole
作为刚入门强化学习的小白,最近几天在写一些基础的代码,使用DQN训练CartPole问题。 DQN是2013年DeepMind提出来的使用Q-learning与神经网络相结合的方法,其实和Q-learning的思想相同,只不过是计算的时候使用神经网络计算Q值。Q-learning简要说一下,就是使用函数逼近的方法,在选择动作时使用epsilon-greedy的方法,在...原创 2018-07-30 14:50:17 · 4998 阅读 · 0 评论 -
ubuntu下OpenAI Box2d 安装
要想训练openai gym中的box2d模块的游戏(物理场景),就要安装box2d,ubuntu中安装过程如下:1)pip install gym2) git clone https://github.com/pybox2d/pybox2d.git3)cd box2d4) python setup.py clean5) python setup.py install【...原创 2018-12-27 21:01:56 · 1738 阅读 · 1 评论 -
对于强化学习中策略梯度为什么取log的问题
随手更新~今天有个同学来问我,为什么强化学习的策略梯度要取log。总结可以直接看最后。首先,我们先回顾一下什么是策略梯度:在强化学习中叫做trajectory(轨迹)计算策略梯度的目的,简单的来说,就是通过改变神经网络的参数,使神经网络产生的 能够得到大的奖励的 动作的 概率变大。是不是有点绕……我们知道,策略迭代算法,产生的是一个策略,也就是动作的概率分布。通过调整这个分布(...原创 2019-06-11 22:49:26 · 4620 阅读 · 5 评论