百度飞桨强化学习七日训练营学习总结

最新推荐文章于 2020-10-08 09:42:52 发布

小白684

最新推荐文章于 2020-10-08 09:42:52 发布

阅读量311

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_41560321/article/details/106963091

版权

百度飞桨强化学习七日训练营学习总结

本次课程小白友好，感谢科科老师的热情细心的“领进门”，因为是零基础所以总结可能不到位，看到这篇文章的小伙伴们见谅

强化学习的分类

因为研究课题接触过动态规划，在控制领域强化学习可以叫做自适应动态规划，或者近似动态规划（approximate dynamic programme,ADP）
在这里插入图片描述
由上图可知动态规划是基于模型的强化学习，状态转移概率和奖励函数是已知的，在老师举出的例子中人碰到大熊下一步的动作有多大概率是选择装死或逃跑（状态转移概率），以及装死和逃跑分别是否能生还（奖励函数）是未知的，现实生活中的大部分情况跟老师举的例子是一样model-free的，所以需要进行不断训练得到最大奖励。

Sarsa 和Q-learning

两者都是表格型的强化学习，通过更新Q表格来获取最佳reward，两者的区别除了上面说的还有Q表格的更新公式不一样
在这里插入图片描述
以上是sarsa的Q表格更新公式，包含了下一步的状态和动作，也就是说sarsa做出了下一步的动作才更新Q值，所以它是on-policy，代码如下

if done:
            target_Q = reward # 没有下一个状态了
        else:
            target_Q = reward + self.gamma * self.Q[next_obs, next_action] # Sarsa
        self.Q[obs, action] += self.lr * (target_Q - predict_Q) # 修正q

而Q-learning的更新公式不包含下一步的动作，
在这里插入图片描述

`&#

最低0.47元/天解锁文章

小白684

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百度飞桨强化学习七日训练营学习总结

百度飞桨强化学习七日训练营学习总结本次课程小白友好，感谢科科老师的热情细心的“领进门”，因为是零基础所以总结可能不到位，看到这篇文章的小伙伴们见谅强化学习的分类因为研究课题接触过动态规划，在控制领域强化学习可以叫做自适应动态规划，或者近似动态规划（approximate dynamic programme,ADP）由上图可知动态规划是基于模型的强化学习，状态转移概率和奖励函数是已知的，在老师举出的例子中人碰到大熊下一步的动作有多大概率是选择装死或逃跑（状态转移概率），以及装死和逃跑分别是否能生还（
复制链接

扫一扫