百度强化学习七日打卡营-学习笔记

最新推荐文章于 2021-03-23 20:06:07 发布

weixin_42459948

最新推荐文章于 2021-03-23 20:06:07 发布

阅读量140

点赞数

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_42459948/article/details/106969612

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

百度强化学习七日打卡营-学习笔记

1、强化学习的作用
强化学习区分于监督学习和无监督学习，强化学习问题本身无法给出确切的答案，因此无法像监督学习一样，直接给出答案。其求解方法需要不断的与环境交互，以求解答案。

2、强化学习算法
（1）on-policy和off-policy策略对比
（1.1）q-learning 是off-policy策略，更新参数和与环境交互的策略是使用的不同的策略。
（1.2）sarsa 是on-policy策略，更新参数和与环境交互的策略是采用的相同的策略。

（2）DQN
在状态特别多的情况下，如果用q-learning方法，存储q表格所使用的内存是非常巨大的，甚至是难以接受的，因此用深度网络来代替q表格，即为DQN算法，深度网络输出所有可能的动作的执行概率，以替代q表格，输入深度网路的数据为sars：当前状态、当前执行的动作、reward和移动后的状态。
两个技巧：
目标网络：每隔一段时间复制原网络到生成真实标签的网络，用以生成真实的标签。（解决算法的非平稳性，以更快更好的收敛）
经验回放：用一个固定大小的池子，不断放入数据，每次更新参数时，随机从池子中取出一部分数据。（充分利用样本，并使样本之间有关联）
在这里插入图片描述

（3）PG（Policy Gradient）
前面的方法是采用了先求价值函数，再通过价值函数获得执行动作的方法。（即value-based的方法）
而PG算法采用了端到端的思想，输入状态、动作、reward等值，直接获得执行动作的概率。（即policy-based的方法）
在这里插入图片描述

PG算法的几个关键点：
3.1、一个epoch更新一次参数。
3.2、更新的损失函数的目标是让“收获”最大。（如上图中的损失函数公式）