![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
《深入浅出强化学习原理入门》学习笔记
阿姝姝姝姝姝
北京,研1
展开
-
《深入浅出强化学习原理入门》学习笔记(七)DQN
《深入浅出强化学习原理入门》学习笔记(七)DQN及其变种1、Qleaning框架2、值函数逼近增量式学习:随机梯度下降法增量式学习:半梯度算法线性逼近批学习方法非线性化逼近:神经网络前向网络前向网络的反向求导3、卷积神经网络卷积运算池化典型卷积神经网络LeNet卷积神经网络的反向传播4、DQN:利用经验回放训练学习过程5、DQN:设置目标网络处理时间差分算法中的TD偏差6、DQN伪代码DQN采用的是Qleaning的基本框架,对Qlearning的修改主要体现在以下三个方面。(1)DQN利用深度卷积神经原创 2020-12-10 19:13:15 · 557 阅读 · 0 评论 -
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法1、时间差分方法与动态规划方法和蒙特卡罗方法的差异(1)动态规划方法(2)蒙特卡罗方法(3)时间差分方法时间差分(Temporal-Difference,简称TD)方法是一种无模型的强化学习方法,也是强化学习理论中最核心的内容。1、时间差分方法与动态规划方法和蒙特卡罗方法的差异与动态规划方法和蒙特卡罗方法相比,时间差分方法的主要不同在于值函数的估计。(1)动态规划方法(2)蒙特卡罗方法(3)时间差分方法...原创 2020-12-04 20:26:22 · 379 阅读 · 0 评论 -
《深入浅出强化学习原理入门》学习笔记(五)基于Python实现策略迭代方法和值迭代方法
《深入浅出强化学习原理入门》学习笔记(五)基于Python和gym实现策略迭代方法和值迭代方法1、策略迭代方法策略评估策略改善值迭代方法最优控制和强化学习比较1、策略迭代方法python代码包括策略评估和策略改善两个子程序,两个子程序交替运行,使得策略逐渐优化收敛。策略评估包含两个循环。第一个循环为1000次,保证值函数收敛到该策略对应的真实值函数。第二个函数为整个状态空间的扫描,保证状态空间的每一点的值函数都得到估计。在第二个循环中用到了系统的模型,因为模型已知,所以智能体无需实际采用这个动作原创 2020-12-01 11:14:42 · 1335 阅读 · 0 评论 -
《深入浅出强化学习原理入门》学习笔记(四)基于模型的动态规划方法
《深入浅出强化学习原理入门》学习笔记(四)基于模型的动态规划方法值函数计算高德-赛德尔迭代求解值函数线性方程策略评估算法利用值函数进行策略改善,找到最优策略策略迭代算法值函数迭代算法最优控制强化学习的直观目标是找到最优策略,目的是更好地完成任务。回报函数对应着具体的任务,所以强化学习所学到的最优策略是与具体的任务相对应的。从这个意义上来说,强化学习并不是万能的,它无法利用一个算法实现所有的任务。从广义上讲,强化学习可以归结为序贯决策问题,即找到一个决策序列u0*-u1*-u2*-u3*-----uτ*使原创 2020-11-27 17:18:54 · 533 阅读 · 0 评论 -
习题:基于gym环境构建迷宫世界
迷宫世界效果演示环境测试代码测试代码的调用环境构建代码效果演示迷宫世界的最终演示效果如图。黑色为墙不可通行,白色为道路可通行,黄色为出口。环境测试代码# 环境测试import gymimport randomimport timeenv=gym.make('MazeWorld-v0')env.reset()reward=0while True: action = env.actions[int(random.random()*len(env.actions))]原创 2020-11-26 20:30:27 · 2567 阅读 · 2 评论 -
机器人找金币问题环境测试优化
机器人找金币问题,实例要求和代码见我的上一篇博客链接: 《深入浅出强化学习原理入门》学习笔记(三)机器人找金币应用实例.测试环境时,书中的示例代码如下。import gymenv = gym.make('GridWorld-v0')env. reset ()env. render ()但是我发现这段代码不能表现出机器人的状态变化,所以对进行了修改,加入循环判断和时延,并打印出总的反馈reward,让机器人找到金币的过程动态显示出来。以下是修改后的代码。# 环境测试import gym.原创 2020-11-26 20:14:10 · 544 阅读 · 1 评论 -
建立自己的gym环境并调用
建立自己的gym环境并调用gym构建环境并调用的四个步骤环境文件中的必备要素机器人找金币的实例实际上就是在教我们利用现有的openAI环境建立自己的gym环境并进行调用。gym搞深度强化学习,训练环境的搭建是必须的,因为训练环境是测试算法,训练参数的基本平台。现在大家用的最多的是openai的gym或者universe。这两个平台非常好,是通用的平台,而且与tensorflow和Theano无缝连接,目前只支持python语言。gym的安装官网介绍的非常清楚链接: https://gym.open原创 2020-11-24 15:06:43 · 11418 阅读 · 4 评论 -
《深入浅出强化学习原理入门》学习笔记(一)总结与绪论
《深入浅出强化学习原理入门》学习笔记(一)总结与绪论1、《深入浅出强化学习》总结2、强化学习3、序贯决策问题4、马尔科夫决策过程5、动态规划算法6、强化学习算法演进的两个关键时间节点7、强化学习算法分类8、强化学习基本框架9、强化学习仿真环境gym(1)选用gym平台的原因(2)gym环境的安装(3)深入剖析gym环境的构建1、《深入浅出强化学习》总结《深入浅出强化学习》包含绪论和四个篇章,全书分为两条线索:第一条线索是强化学习的基本算法。绪论讲解了强化学习的是什么,可以解决什么问题,怎样解决问题,原创 2020-11-20 17:08:27 · 1126 阅读 · 0 评论 -
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程1、MDP过程(1)马尔科夫性(2)马尔科夫过程(3)马尔科夫决策过程2、MDP过程中的概率学知识3、MDP过程应用实例1、MDP过程强化学习的过程是动态的、不断交互的过程,所需要的的数据也是通过和环境不断交互产生的,很像人的学习过程,解决的是决策的问题。深度学习如图像识别和语音识别解决的是感知的问题。人工智能的最终目的是通过感知进行智能决策。所以近年来发展起来的深度学习技术和强化学习算法结合产生的深度强化学习算法是人类实现人工智能终极目的原创 2020-11-23 20:53:45 · 402 阅读 · 0 评论 -
《深入浅出强化学习原理入门》学习笔记(三)机器人找金币应用实例
《深入浅出强化学习原理入门》学习笔记(三)MDP应用实例原创 2020-11-24 14:08:29 · 2774 阅读 · 6 评论