强化学习笔记
文章平均质量分 77
关于强化学习的一些知识点,包括论文以及代码实现等
madao10086+
Nothing is more pratical than a good theory.
展开
-
强化学习交叉熵方法-Cross-Entropy Method
Cross Entropy Method(CE method)是一种进化策略算法,它虽然也是基于交叉熵,但并不是我们熟知的监督学习中的交叉熵方法。这个算法的核心是一个参数优化的过程。CE method已经成功应用于不同范围的估计和优化问题,包括缓冲区分配、信号检测、DNA排序、交通控制以及神经网络和强化学习等领域。原创 2022-03-29 13:51:01 · 2961 阅读 · 1 评论 -
gym不存在环境解决办法
最近开始学习强化学习,尝试使用gym训练一些小游戏,发现一直报环境不存在的问题,看到错误提示全是什么不存在环境,去官网以及github找了好几圈,贴过来的代码都用不了,后来发现是版本变迁,环境被移除了,我。。。这里找到一个解决办法,重新安装旧版本的,能用就行,凑合着用这是原博客的说明版本太新了,gym库应该在0.20.0版本不支持atari,并在0.21.0版中连环境也没了[1]直接在命令行安装pip install gym==0.19.0pip install atari_py==0.2.原创 2022-03-06 14:35:49 · 8756 阅读 · 0 评论 -
强化学习QLearning以及PongGame
QLearning是强化学习中的value-based方法,其思想是在当前奖励的衰减的最大估计和当前所得到的奖励当成这一步的现实。类似于动态规划中获取全局最优解可以通过每一步的局部最优完成迭代。QLearning决策QQQ 是 Q(s,a)Q(s, a)Q(s,a) 在某一个状态 SSS 下采取动作 aaa 动作能够获得收益的期望[1],例如当前有两个状态 S1,S2S1, S2S1,S2 分别表示同学玩游戏、写作业,对应的动作可以有 a1,a2a_1, a_2a1,a2。为了成为好学生当然是写作业原创 2022-04-25 20:03:07 · 1552 阅读 · 0 评论